基于最大频繁项集的搜索引擎查询结果聚类算法被引量：5

Search Result Clustering Algorithm Based on Maximal Frequent Itemsets

下载PDF

导出

摘要现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC(Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。 Most of existing web page clustering algorithms are based on short and uneven snippets of web pages, which often causes bad clustering performance （e. g. , STC and Lingo algorithms）. On the other hand, the classical clustering algorithms for full web pages are too complex to provide good cluster label in addition to the incapability online clustering （for example, Kmeans algorithm）. To address above problems, this paper presents an online web page clustering algorithm based on maximal frequent itemsets （MFIC）. At first, the maximal frequent itemsets are mined, and then the web pages are clustered based on shared frequent item sets. Finally, clusters are labelled based on the frequent items. Experimental results show that MFIC can effectively reduce clustering time, improve clustering accrucy by 15%, and generate understandable labels.

作者苏冲陈清才王晓龙孟宪军

机构地区哈尔滨工业大学深圳研究生院智能计算研究中心

出处《中文信息学报》 CSCD 北大核心 2010年第2期58-67,共10页 Journal of Chinese Information Processing

基金 863专题目标导向类资助项目(2006AA01Z197) 国家自然科学基金资助项目(60703015)

关键词计算机应用中文信息处理搜索引擎网页聚类频繁项集 computer application Chinese information processing search engine Web page clustering frequent itemset

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献27

1Lan Huang. A Survey on Web Information Retrieval Teehnologies[EB/OL]. ECSL Technical Report, State University of New York,2000.
2C. J van Rijsbergen. Information Retrieval[M]. London: Butterworths, 1979.
3Oren Zamir, Oren Etzioni. Web document clustering A Feasibility Demonstration[C]//Research and Devel opment in Information Retrieval, 1998: 46-54.
4Stanislaw Osinski, Jerzy Stefanowski, and Dawid Weiss. Lingo: Search Results Clustering Algorithm Based on Singular Value Decomposition[C]//Proceedings of the International IIS: Intelligent Information Processing and Web Mining Conference, Advances in Soft Computing, 2004 : 359-368.
5Liping Jing, Michael K. Ng, and Joshua Zhexue Huang. An Entropy Weighting k-Means Algorithm for Subspace Clustering of High-Dimensional Sparse Data [J]. IEEE Transactions on Knowledge and Data Engineering,2007,19(8) :1026-1040.
6Michael Steinbach, George Karypis, Vipin Kumar. A Comparison of Document Clustering Techniques [EB/ OL]. Technical Report, University of Minnesota, 2000.
7Wei Song; Soon Cheol Park. Genetic algorithm-based text clustering technique: Automatic evolution of clustes with high efficientcy [C]//Seventh International Conference on Web-Age Information Management Workshops. Hong Kong 2006: 17-17.
8Richard Freeman, Hujun Yin. Self-Organising Maps for Hierarchical Tree View Document Clustering Using Contextual Information[C]//Proceedings of the IEEE International Joint Conference on Neural Networks. 2002: 123-128.
9Daniel Crabtree, Xiaoying Gao, Peter Andreae. Improving Web Clustering by Cluster Selection[C]//The 2005 IEEE/WIC/ACM International Conference on Web Intelligence. 2005 : 172-178.
10Hung Chim,Xiaotie Deng. A New Suffix Tree Similarity Measure for Document Clustering[C]//World Wide Web Conference Committee. 2007 : 121-129.

二级参考文献111

1陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
2王建会,王雷,胡运发.词语间依存关系的定量识别[J].中文信息学报,2005,19(4):31-38. 被引量：3
3黄健斌,姬红兵.基于模糊概念格的Web搜索结果聚类算法[J].西安电子科技大学学报,2005,32(6):856-860. 被引量：6
4刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
5宋春芳,石冰.一种基于关联规则的搜索引擎结果聚类算法[J].山东大学学报（理学版）,2006,41(3):68-72. 被引量：5
6索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
7Baidu search engine[CP].http://www, baidu, com.
8Carrot clustering engine[CP].http://demo, carrot2. org/demo-stable/main.
9Dragon toolkit[CP].http://www, dragontoolkit, org
10H. Chim and X. Deng. A new suffix tree similarity measure for document clustering[C]//WWW.121- 129, 2007.

共引文献103

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
3庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
4张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量：15
5王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
6王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1
7谷波,李济洪,刘开瑛.基于COSA算法的中文文本聚类[J].中文信息学报,2007,21(6):65-70. 被引量：9
8丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量：9
9索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
10蔡荣太,王延杰.矢量聚类及其在稀疏分量分析中的应用[J].计算机工程,2008,34(5):8-10.

同被引文献45

1刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
2彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
3Yang X, Ghoting A, Ruan Y, et al. A framework for summarizing and analyzing Twilter feeds [C] //Proc of the 18th ACM SIGKDD lnt Conf on Knowledge Discovery and Data Mining (KDD'12). New York: ACM, 2012:370-378.
4Zhang X, Zhu S, Liang W. Detecting spare and promoting campaigns in the Twitter social network [C] //Proc of the 12th IEEE Int Conf on Data Mining (ICDM'12). Los Alamitos, CA: IEEEComputer Society, 2012:1194-1199.
5Peng Min, Huang Jiaiia, Fu Hui, et al. High quality microblog extraction based on multiple features fusion and time frequency lransformation [G] //LNCS 8181 : Proc of the 14th Int Conf of Web Information Systems Engineering (WlSE'13). Berlin: Springer, 2013:188- 201.
6Lin D. An information theoretic definition of similarity [C]// Proc of the 15th Int Conf on Machine I.earning (ICMI.'98). San Francisco, CA: Morgan Kaufmann, 1998, 296-304.
7Schiitze H, Silverstein C. Projections for efficient document clustering [C] //Proc of the 20th Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR'97). New York: ACM, 1997: 74-81.
8Ramage D, Heymann P, Manning C D, et al. Clustering the tagged Web [C] //Proc of the 2nd ACM Int Conf on Web Search and Data Mining (WSDM'09). New York: ACM, 2009:54-63.
9Freeman R, Yin H. Self-organising maps for hierarchical tree view document clustering using contextual information [G]//LNCS 2412: Proc of the IEEE Int Joint Conf on Neural Networks. Berlin: Springer, 2002:123-128.
10Sahami M, Heilman T D. A Web based kernel function for measuring the similarity of short text snippets [C] //Proc of the 15th Int Conf on World Wide Web (WWW'06). New York: ACM, 2006: 377-386.

引证文献5

1彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953. 被引量：31
2邓茹仁,伍应环.QLA-Means:检索结果聚类方法[J].计算机工程与设计,2017,38(4):1067-1070. 被引量：1
3李锐.基于聚类分析模型的在线客服语音文本分析技术研究[J].机电工程技术,2017,46(11):36-38.
4施维,王兴华,万巍,薛均,潘璀然,程显毅,董建成,王理.基于竞争学习的大规模微博文本聚类[J].江苏科技大学学报（自然科学版）,2017,31(6):768-773.
5牟馨忆.中文分词在大数据时代医学领域的应用[J].电子技术与软件工程,2018(17):186-187.

二级引证文献32

1薛苏琴,牛永洁.基于向量空间模型的中文文本相似度的研究[J].电子设计工程,2016,24(10):28-31. 被引量：12
2张银明,黄廷磊,林科,张嫱嫱.一种改进的k均值文本聚类算法[J].桂林电子科技大学学报,2016,36(4):311-314. 被引量：5
3王海艳,曹攀.一种大规模Web文本的分类方法[J].南京邮电大学学报（自然科学版）,2016,36(4):60-67.
4张少磊,王忠.基于闭频繁项集短文本聚类[J].计算机应用,2016,36(A02):227-229. 被引量：1
5王灿伟.基于主题提取的海量微博情感分析[J].南京大学学报（自然科学版）,2017,53(3):549-556. 被引量：7
6梁晓贺,田儒雅,吴蕾,张学福.微博主题发现研究方法述评[J].图书情报工作,2017,61(14):141-148. 被引量：10
7马慧芳,朱志强,成玉丹,贾俊杰.基于核心词项平均划分相似度的短文本聚类算法[J].计算机工程与科学,2017,39(8):1562-1569.
8贺伟雄,严骏,缪德志.基于关键词语义距离的装备故障文本聚类算法[J].信息工程大学学报,2017,18(3):305-310. 被引量：2
9陈建,沈潇军,姚一杨,邢雅菲,琚小明.基于密文策略属性基加密系统访问机制的缓存替换策略[J].计算机应用,2017,37(10):2964-2967. 被引量：4
10张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法[J].计算机研究与发展,2018,55(1):102-112. 被引量：14

1孙俊,武小红,张晓东,王艳,高洪燕.基于MFICSC算法的生菜图像目标聚类分割[J].农业工程学报,2012,28(13):149-153. 被引量：10
2周益铤,邓晋宜.网页在线管理技术的探索与研究[J].嘉应学院学报,2005,23(3):84-87. 被引量：1
3刘红燕,杨杰,潘志强.基于数字证书的网页在线签批系统的实现[J].信息技术与信息化,2009(2):56-58.
4张小红,许景达.面向对象的通用选矿生产报表管理系统设计[J].江西有色金属,2002,16(1):27-30.
5卢晓燕.客户端Java技术的应用[J].电脑知识与技术,2006(8):59-61.
6毛垣生.自建数据库中文本挖掘及检索技术[J].情报杂志,2004,23(4):29-30. 被引量：2
7彭慧伶,舒云星,武新.基于FP-tree的最大频繁项集挖掘新算法[J].计算技术与自动化,2009,28(2):62-65.
8菠萝王.简单两步网页在线抓[J].电脑爱好者（普及版）,2008,0(8):60-60.
9赵杰文,原娇杰.数据挖掘中后缀树算法的应用研究[J].焦作大学学报,2007,21(3):70-72. 被引量：2
10蔡怡峰,彭鑫,钱乐秋.面向语义构件检索的交互式查询方案生成[J].电子学报,2008,36(8):1631-1636. 被引量：3

中文信息学报

2010年第2期

浏览历史

内容加载中请稍等...

基于最大频繁项集的搜索引擎查询结果聚类算法被引量：5

参考文献27

二级参考文献111

共引文献103

同被引文献45

引证文献5

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于最大频繁项集的搜索引擎查询结果聚类算法 被引量：5

参考文献27

二级参考文献111

共引文献103

同被引文献45

引证文献5

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于最大频繁项集的搜索引擎查询结果聚类算法被引量：5