基于Lucene的XML文件相似度检索系统

XML File Similarity Retrieval System Based on Lucene

下载PDF

导出

摘要经分析研究开源的Lucene系统架构以及特殊xml数据源,针对Lucene搜索得分公式的不足,提出了结合词项位置和二次检索的公式,设计一种文本搜索系统;并以提高检索性能、相似性搜索的准确率、索引的空间效率和支持查询的时间效率为目标进行实验,最后通过部署Tomcat服务器实现.经实验验证,改进的系统较之于原Lucene系统提高了建立索引效率、查询效率、准确率. On the basis of analysis and study on the open source Lucene system architecture, a semantic search system is designed based on the special XML data sources in this paper. What＇s more, we use the word item location and word semantic to improve the Lucene＇s search results and conduct experiments to test and verify the retrieval performance, the accuracy of similarity search, the space efficiency of index and the time-efficiency of supporting inquiry： And finally by deploying the Tomcat server to implement our implement system. The experiment results prove that compared with the original Lucene indexing system, our system can improve the indexing efficiency, query efficiency and accuracy.

作者吴新强周娅王如意张敬伟林煜明

机构地区桂林电子科技大学计算机科学与工程学院

出处《计算机系统应用》 2015年第2期134-139,共6页 Computer Systems & Applications

基金广西教育厅高校科技项目(2013YB095) 广西信息实验科学中心重点项目(20130111) 广西教育厅一般资助项目(20103YB051) 桂林电子科技大学研究生创新项目(GDYCS201465)

关键词 WEB LUCENE 相似度词项位置二次检索 XML Lucene similarity lexical item location secondary retrieval XML

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1ApacheLucene.Lucenjava4.5.0.[2013-10-05]. http://lucene. apache.or/.
2义天鹏,陈启安.基于Lucene的中文分析器分词性能比较研究[J].计算机工程,2012,38(22):279-282. 被引量：24
3胡长春,刘功申.面向搜索引擎Lucene的中文分析器[J].计算机工程与应用,2009,45(12):157-159. 被引量：8
4王欢,孙瑞志.基于领域本体和Lucene的语义检索系统研究[J].计算机应用,2010,30(6):1655-1657. 被引量：20
5黄承慧,印鉴,陆寄远.一种改进的Lucene语义相似度检索算法[J].中山大学学报（自然科学版）,2011,50(2):11-15. 被引量：13
6Doron C, Einat A, Carmel D. Lucene andjum at trec 2007: 1-million queries track. Proc. of the 16th Text Retrieval Conference (TREC 2007). Gaithersburg, Washington, USA. 2007. 321-327.
7白培发,王成良,徐玲.一种融合词语位置特征的Lucene相似度评分算法[J].计算机工程与应用,2014,50(2):129-132. 被引量：8
8Kadhim MH, Omar N. Automatic arabic text categorization using Bayesian learning. 2012 7th International Conference on Computing and Convergence Technology (ICCCT). IEEE. 2012.415--419.
9蒋琪夏.相似性搜索中的近似算法研究[学位论文].北京:清华大学,2012.

二级参考文献48

1周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
2张承立,陈剑波,齐开悦.基于语义网的语义相似度算法改进[J].计算机工程与应用,2006,42(17):165-166. 被引量：38
3李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计,2007,28(1):227-229. 被引量：39
4管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计,2007,28(2):489-491. 被引量：71
5黄果,周竹荣,周亭.基于领域本体的语义相似度计算研究[J].计算机工程与科学,2007,29(5):112-117. 被引量：21
6Cutting D.Lucene lecture at pisa[EB/OL].[2004-11-24].http://lucene. sourceforge.net/talks/pisa/.
7TVERSKY A.Features of similarity[J].Psychological Review,1997,84(4):327-352.
8RESNIK P.Semantic similarity in a taxonomy:An information-based measure and its application to problems of ambiguity and natural language[J].Journal of Artificial Intelligence Research,1999,11:95-130.
9LEACOCK C,CHODOROW M.Combining local context and wordnet similarity for word sense identification[M].Cambridge,MA:MIT Press,1998:265-283.
10Lucene. Lucene Java 3. O. 1 [ EB/OL]. ( 2010 - 02 - 26 ) [2010 - 03 - 30]. http ://lucene. apache, org/.

共引文献53

1沈镛.新技术、免费软件与专利数据分析的融合[J].产业科技创新,2019(25):83-84.
2孙殿哲,魏海平,陈岩.Nutch中庖丁解牛中文分词的实现与评测[J].计算机与现代化,2010(6):187-190. 被引量：10
3毛布,谢汶.一种基于博弈论的死锁检测机制研究[J].成都电子机械高等专科学校学报,2010,13(4):39-41. 被引量：1
4姚全珠,彭程,宋志理,李薇.基于关联规则的搜索引擎方法[J].计算机工程与应用,2011,47(9):134-136. 被引量：4
5葛慧丽,叶志飞.一种基于迭代运算引文排序的科技文献检索系统[J].计算机时代,2011(9):15-18. 被引量：1
6彭焕峰.基于Lucene的中文分词器的设计与实现[J].微型机与应用,2011,30(18):62-64. 被引量：5
7姜鑫,余平.基于Lucene的音视频资源检索系统的研究与实现[J].计算机应用与软件,2011,28(11):245-248. 被引量：5
8李从东,高杨,赵映红.突发事件应急管理中的情景适应度研究[J].电子科技大学学报（社科版）,2012,14(4):39-43. 被引量：2
9马晓丹,邓晓晴,彭文娟,阎红灿.基于领域本体的知识库架构和实现[J].河北联合大学学报（自然科学版）,2012,34(4):42-47. 被引量：8
10义天鹏,陈启安.基于Lucene的中文分析器分词性能比较研究[J].计算机工程,2012,38(22):279-282. 被引量：24

1赵芳,晏敏,卢伟萍.浅谈ASP网页中二次检索功能的实现[J].气象研究与应用,2007,28(A03):84-85. 被引量：3
2程玉胜,黎康,王一宾,任勇.基于词项关联关系的FCM微博聚类算法[J].安庆师范学院学报（自然科学版）,2016,22(3):68-72.
3林丽华.用搜索找到围脖的好东西[J].电脑迷,2010(14):65-65.
4刘京锐,张俊方.基于内容的图像二次检索新方法探究[J].首都师范大学学报（自然科学版）,2009,30(6):6-9.
5孙国超,徐硕,乔晓东.主题模型可视化研究综述[J].情报工程,2015,1(6):51-61. 被引量：5
6IBM的新软件帮助客户实现随需应变提高工作空间效率，内容管理和安全性[J].计算机安全,2004(5):80-80.
7章昉,颜华驹,刘明君,赵中英.基于词项关联的短文本分类研究[J].集成技术,2015,4(3):69-78. 被引量：2
8强保华,潘家志,余建桥.从关系数据库中生成XML数据源的研究[J].计算机科学,2002,29(5):70-71. 被引量：5
9左玉龙.基于内容图像检索的关键技术[J].唐山师范学院学报,2012,34(5):47-49.
10伍海燕,王佑镁.ASP.NET实现网页数据检索方法的探索[J].计算机与现代化,2005(7):28-30. 被引量：1

计算机系统应用

2015年第2期

浏览历史

内容加载中请稍等...

基于Lucene的XML文件相似度检索系统

参考文献9

二级参考文献48

共引文献53

相关作者

相关机构

相关主题

浏览历史