摘要
大规模数据集是数据挖掘高效实现的障碍。抽样是统计学中一种常用的调查方法,作为克服该障碍的方法,抽样被引入数据挖掘中。在国外,抽样在数据挖掘中的应用研究已比较广泛,而国内相关研究很少。本文在总结现有相关工作的基础上,系统介绍了数据挖掘中抽样的应用及其相关问题,相信抽样在数据挖掘中的应用研究推动数据挖掘的发展。
Large data sets are becoming obstacles for efficient data mining. Survey sampling is used in statistics commonly. In data mining, we use sampling to overcome the large data sets. Many works have been done about sampling's application in data mining. Based on the summarization of current relational works, we introduce systemically the sampling's application in data mining.
出处
《计算机科学》
CSCD
北大核心
2004年第2期126-128,141,共4页
Computer Science
基金
国家自然科学基金(9010403)