基于文本聚类与分布式Lucene的知识检索被引量：10

Knowledge retrieval based on text clustering and distributed Lucene

下载PDF

导出

摘要针对传统集中式索引处理大规模数据的性能和效率问题,提出了一种基于文本聚类的检索算法。利用文本聚类算法改进现有的索引划分方案,根据查询与聚类结果的距离计算判断查询意图,缩减查询范围。实验结果表明,所提方案能够有效地缓解大规模数据建索引和检索的压力,大幅提高分布式检索性能,同时保持着较高的准确率和查全率。 To solve the low performance and efficiency issues of the traditional centralized index when processing largescale unstructured knowledge, the authors proposed the retrieval algorithm based on text clustering. The algorithm used text clustering algorithm to improve the existing index distribution method, and reduced the search range by judging the query intent through the distance of query and clusters. The experimental results show that the proposed scheme can effectively alleviate the pressure of indexing and retrieval in handling large-scale data. It greatly improves the performance of distributed retrieval, and it still maintains relatively high accuracy rate and recall rate.

作者冯汝伟谢强丁秋林

机构地区南京航空航天大学计算机科学与技术学院

出处《计算机应用》 CSCD 北大核心 2013年第1期186-188,共3页 journal of Computer Applications

关键词非结构化知识分布式索引文本聚类全文检索并行检索 unstructured knowledge distributed index text clustering full-text search parallel retrieval

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1蒋明原,孔令德,宁静静.一种海量数据下的Lucene全文检索解决方案[J].电脑开发与应用,2011,24(4):32-35. 被引量：1
2MOFFAT A, WEBBER W, ZOBEL J. Load balancing for term-dis- tributed parallel retrieval [ C]// SIGIR'06: Proceedings of the 29th Annual International ACM SIGIR Conference on Research and De- velopment in Information Retrieval. New York: ACM Press, 2006: 348 - 355.
3曹宇,尹刚,李翔,程荣斌,王怀民.聚类搜索引擎研究进展浅析[J].电脑知识与技术,2011,7(8):5398-5400. 被引量：2
4徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：65
5OWEN S, ANIL R, DUNNING T, et al. Mahout in action [ M]. Greenwich: Manning Publications, 2010:123 - 137.
6ESTEVES R M, PAIS R, RONG C. K-means clustering in the cloud--a Mahout test [ C]// Proceedings of the 2011 IEEE Work- shops of International Conference on Advanced Information Networ- king and Applications. Washington, DC: IEEE Computer Society, 2011:514 -519.
7ESTEVES R M, RONG C. Using Mahout for clustering Wikipedia's latest articles: a comparison between K-means and fuzzy C-means in the cloud [ C]// Proceedings of the 2011 IEEE Third International Conference on Cloud Computing Technology and Science. Washing- ton, DC: IEEE Computer Society, 2011:565-569.
8BUTLER M H, RUTHERFORD J. Distributed Lucene: a distribu- ted free text index for Hadoop [ EB/OL]. [ 2012-03-25]. http:/! www. hpl. hp. com/techreports/2008/HPL-2008-64, pdf.
9SAJJA K. Performance study of Lucene in parallel and distributed environments [ D]. Boise: Boise State University, 2011.
10HATCHER E, GOSPODNETIC O, McCANDLESS M. Lueene in action [ M]. Greenwich: Manning Publications, 2009.

二级参考文献47

1王继民,陈翀,彭波.大规模中文搜索引擎的用户日志分析[J].华南理工大学学报（自然科学版）,2004,32(z1):1-5. 被引量：24
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4孙西全,马瑞芳,李燕灵.基于Lucene的信息检索的研究与应用[J].情报理论与实践,2006,29(1):125-128. 被引量：20
5沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
6姜志芳.信息用户需求及信息用户行为研究综述[J].图书馆论坛,2006,26(4):284-286. 被引量：9
7索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
8余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量：117
9林碧英,赵锐,陈良臣.基于Lucene的全文检索引擎研究与应用[J].计算机技术与发展,2007,17(5):184-186. 被引量：19
10刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15

共引文献76

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：7
4王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009(3):74-79. 被引量：62
5施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
6田卉.用数据挖掘技术构建政府智能化网络投诉平台[J].办公自动化（综合月刊）,2009(9):13-14. 被引量：3
7张靖.网络个性化服务资源综合推荐研究[J].计算机仿真,2009,26(11):157-160. 被引量：5
8张瑜,苏晓路,刘世洪,李景,胡海燕.基于本体的农业科技信息用户建模系统设计与实现[J].现代图书情报技术,2009(11):34-39. 被引量：1
9刘金岭.基于主题的中文短信文本分类研究[J].计算机工程,2010,36(4):30-32. 被引量：14
10任姚鹏,陈立潮,张英俊,袁英.结合语义的特征权重计算方法研究[J].计算机工程与设计,2010,31(10):2381-2383. 被引量：20

同被引文献115

1赵星,廖桂平,史晓慧,陈诚,李文圃.物联网与云计算环境下的农业信息服务模式构建[J].农机化研究,2012,34(4):142-147. 被引量：29
2陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
3郭昱,吴清烈.基于云计算的大规模定制客户需求响应模型及其节点的选择与分布[J].系统工程理论与实践,2011,31(S2):1-6. 被引量：12
4吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J].情报学报,2006,25(1):55-62. 被引量：104
5管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计,2007,28(2):489-491. 被引量：71
6彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
7钱平,郑业鲁.农业木体论研究与应用[M].北京:中国农业科学技术出版社,2006,1-100.
8张华清.动态多维社会网络中个性化推荐方法研究[D].济南:山东师范大学硕士学位论文,2012,16-31.
9马尧.基于多维用户特征建模的个性化社交搜索引擎的设计与实现[D].广州:华南理工大学硕士学位论文,2012,12-55.
10陈恩红,徐童,田继雷,杨禹.移动情景感知的个性化推荐技术[J].中国计算机学会通讯,2013,9(3):19-24.

引证文献10

1裴志松.基于Lucene的毕业论文相似性检测[J].长春工程学院学报（自然科学版）,2013,14(4):105-107.
2郭平,刘波,沈岳.农业云大数据自组织推送关键技术综述[J].软件,2013,34(3):1-6. 被引量：24
3符保龙,张爱科.基于均值密度中心估计的k-means聚类文本挖掘方法[J].重庆邮电大学学报（自然科学版）,2014,26(1):111-116. 被引量：13
4邵武长.一种基于MapReduce的分布式索引方法[J].物联网技术,2014,4(7):65-66.
5李胜东,吕学强,孙军,施水才.Lucene全文索引效率的改进[J].山东大学学报（理学版）,2015,50(7):76-79. 被引量：3
6茹蓓,朱楠,贺新征.基于改进粒子群优化的无标记数据鲁棒聚类算法[J].计算机应用研究,2017,34(6):1626-1630. 被引量：6
7刘永花,杨丽娜,王静宇.基于MapReduce的增量式全文Lucene引擎并行检索[J].控制工程,2018,25(8):1540-1546. 被引量：5
8郭超年.基于银行关键字的Lucene测试用例检索系统[J].信息与电脑,2017,29(8):140-142.
9葛云生,孔杰.分布式全文检索技术的研究及应用[J].计算机工程与设计,2018,39(9):2997-3001. 被引量：3
10全龙翔,马行星.浅谈一种面向大数据行业的智能搜索引擎技术[J].计算技术与自动化,2020,39(2):170-176.

二级引证文献54

1陈建云.基于云端的农业大数据采集预处理研究[J].产业科技创新,2020,2(5):72-73. 被引量：1
2张新娟.一种基于改进粒子群算法的图像分类方法研究[J].自动化与仪器仪表,2016(7):163-164. 被引量：1
3沈岳,林芳,刘波.湖南省农村农业信息化示范省建设现状及展望[J].中国科技成果,2013(19):12-16.
4杨昭怡,张琦,王拥军.基于增益透明SOA的OOK-8PSK调制格式转换研究[J].软件,2013,34(12):218-223. 被引量：3
5朱俚治.一种基于计算机病毒行为权值的检测算法[J].信息技术与标准化,2018(12):69-72.
6申玫,徐宁,周明顺,赵晓玲,李先强.数据挖掘技术在中高职课程衔接中的应用[J].现代教育科学（高教研究）,2014(4):70-73. 被引量：2
7孙想,李庆学,吴华瑞,王一红,刘艳平.基于信息资源聚合的农民专业合作社信息系统[J].计算机工程与设计,2014,35(10):3697-3700. 被引量：2
8张浩然,李中良,邹腾飞,魏旭阳,杨国才.农业大数据综述[J].计算机科学,2014,41(B11):387-392. 被引量：84
9戴小文,漆雁斌,陈文宽.农业现代化背景下大数据分析在农业经济中的应用研究[J].四川师范大学学报（社会科学版）,2015,42(2):70-77. 被引量：48
10孙菲,张健沛,董野,任福栋,于涛,郭春平.基于标准偏移量的学生成绩K-means聚类分析算法研究[J].齐齐哈尔大学学报（自然科学版）,2015,31(2):57-64. 被引量：6

1张学浪,耿楠.基于云计算的图像并行检索关键技术研究[J].计算机应用与软件,2013,30(5):220-222. 被引量：5
2乐晓波,吴晓红.一个有效的快速并行检索算法[J].微电子学与计算机,1993,10(7):33-37. 被引量：1
3高珊,何婷婷,胡文敏.一种基于锚文本的并行检索策略[J].计算机工程,2008,34(19):30-31. 被引量：2
4王荣德,荆一楠,王欢,高海锋.基于时间戳索引的日志文件并行检索技术研究[J].计算机应用与软件,2011,28(2):145-147. 被引量：3
5田生伟,禹龙.搜索引擎中并行检索均衡自适应机制的研究与实践[J].计算机应用与软件,2005,22(4):83-84.
6周国安,李强,陈新,胡旭.海量小文件元数据的分布式存储与检索[J].空军预警学院学报,2014,28(6):427-431.
7陈曦.人工智能技术在GIS应用中的研究[J].中山大学研究生学刊（自然科学与医学版）,2007,28(1):77-86. 被引量：2
8周飚,田生伟.基于Jsp/Javabean多层结构的高速网上信息检索系统的设计[J].伊犁师范学院学报（社会科学版）,2006,25(3):88-90.
9赖积保,罗晓丽,余涛,贾培艳.一种支持云计算的遥感影像数据组织模型研究[J].计算机科学,2013,40(7):80-83. 被引量：16
10薛建生,苏波.一种并行路由计算方案的研究与设计[J].辽宁大学学报（自然科学版）,2002,29(1):28-31.

计算机应用

2013年第1期

浏览历史

内容加载中请稍等...

基于文本聚类与分布式Lucene的知识检索被引量：10

参考文献11

二级参考文献47

共引文献76

同被引文献115

引证文献10

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于文本聚类与分布式Lucene的知识检索 被引量：10

参考文献11

二级参考文献47

共引文献76

同被引文献115

引证文献10

二级引证文献54

相关作者

相关机构

相关主题

浏览历史

基于文本聚类与分布式Lucene的知识检索被引量：10