基于用户日志的查询扩展统计模型被引量：61

A Statistical Query Expansion Model Based on Query Logs

下载PDF

导出

摘要信息检索长期存在着用词歧义性问题,在Web搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的.实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以大幅度提高查询精度. Ambiguity of query terms has been a long-standing problem in information retrieval field, which becomes more serious in Web searching. A method for automatic query expansion based on query logs obtained from users?daily usage is suggested. This model establishes probabilistic relationship between terms in documents and in user queries through statistical learning from the log, and selects high-related expansion terms based on Bayesian theory. These expansion terms are added into the original query to formulate a new one in order to improve the effectiveness of retrieval. Experimental results show that this technique is more adaptive to Web searching, and can improve the precision of document retrieval markedly compared with conventional ones.

作者崔航文继荣李敏强

机构地区天津大学系统工程研究所微软亚洲研究院

出处《软件学报》 EI CSCD 北大核心 2003年第9期1593-1599,共7页 Journal of Software

基金国家自然科学基金~~

关键词信息检索查询扩展用户日志日志挖掘 information retrieval query expansion user log log mining

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1Furnas GW, Landauer TK, Gomez LM, Dumais ST. The vocabulary problem in human-system communication. Communication of ACM, 1987,30(11):964～971.
2Wen JR, Nie JY, Zhang HJ. Clustering user queries of a search engine. In: Proceedings of the 10th International World Wide Web Conference (WWW10). New York: ACM Press, 2001. 162～168.
3Xu JX, Croft WB. Query expansion using local and global document analysis. In: Frei HP, Harman D, Schauble P, Wilkinson R,eds. Proceedings of the 19th Annual International SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1996. 4～11.
4Xu JX, Croft WB. Improving the effectiveness of information retrieval with local context analysis. ACM Transactions on Information Systems, 2000,18(1):79～112.
5Deerwester S, Dumai ST, Furnas GW, Landauer TK, Harshman R. Indexing by latent semantic analysis. Journal of ACM Transactions on Information Systems, 2000,18(1):79～112.
6Qiu Y, Frei H. Concept based query expansion. In: Korfhage R, Rasmussen EM, Willett P, eds. Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 1993.160～169.
7Attar R, Fraenkel AS. Local feedback in full-text retrieval systems. Journal of the ACM, 1977,24(3):397～417.
8Buckley C, Salton G, Allan J, Singhal A. Automatic query expansion using SMART. Technical Report, TREC-3, 1995. 69～80.
9Ricardo B-Y, Berthier R-N. Modem Information Retrieval. England: Pearson Education Limited, 1999.
10Hull D. Using statistical testing in the evaluation of retrieval experiments. In: Korfhage R, Rasmussen EM, Willett P, eds.Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York: ACM Press, 1993. 329～338.

同被引文献630

1王继民,彭波,孟涛.基于搜索引擎日志发现相近Web查询[J].北京邮电大学学报,2005,28(z1):44-48. 被引量：4
2陈翀,彭波,闫宏飞,王继民.一种词汇共现算法及共现词对检索系统排序的影响[J].清华大学学报（自然科学版）,2005,45(S1):1857-1860. 被引量：8
3王继民,陈翀,彭波.大规模中文搜索引擎的用户日志分析[J].华南理工大学学报（自然科学版）,2004,32(z1):1-5. 被引量：24
4蒋辉,阳小华.基于文档与搜索结果上下文的查询扩展方法[J].计算机应用,2009,29(3):852-853. 被引量：6
5许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
6胡百华,李行德,汤志祥.香港的语料库和相关研究概况[J].语言文字应用,1997(2):51-56. 被引量：8
7刘连元.现代汉语语料库研制[J].语言文字应用,1996(3):3-9. 被引量：28
8刘湘生.关于主题分面组配公式[J].国家图书馆学刊,1981(3):17-21. 被引量：4
9胡昊,王君伟,常橙,何震瀛,汪卫.XML数据上支持查询扩展的关键词检索系统[J].计算机研究与发展,2013,50(S1):421-425. 被引量：1
10顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8

引证文献61

1王微微,夏秀峰,李晓明.一种基于用户行为反馈的兴趣度模型更新算法[J].辽宁大学学报（自然科学版）,2011,38(1):40-45. 被引量：11
2傅向华,马兆丰,何明,冯博琴.一种个性化的主题提取和层次发现算法[J].西安交通大学学报,2005,39(2):119-122. 被引量：5
3郭岩,白硕,于满泉.Web使用信息挖掘综述[J].计算机科学,2005,32(1):1-7. 被引量：50
4李智,李敏强.基金项目评审管理中智能交互式文档检索[J].研究与发展管理,2005,17(3):106-110. 被引量：5
5傅向华,冯博琴,马兆丰,何明.基于查询扩展的Web链接主题提取算法[J].小型微型计算机系统,2005,26(11):1951-1954. 被引量：1
6余正涛,樊孝忠,宋丽荣.基于特定问题类别的汉语问答系统查询扩展[J].北京理工大学学报,2005,25(10):880-884. 被引量：3
7李楠,孙济庆.支持语义检索的知识检索模型[J].情报学报,2005,24(6):708-712. 被引量：12
8章成志,苏兰芳,苏新宁.基于多语境的相关词自动提取系统的设计与实现[J].现代图书情报技术,2006(9):23-28. 被引量：6
9在发展中追求和谐——从统计数字看浙江科学发展[J].今日浙江,2006(20):22-23.
10章成志,徐小琴.信息检索系统的相关词提示技术与评测[J].情报理论与实践,2007,30(1):100-104. 被引量：7

二级引证文献328

1周宁.融媒体时代网络百科索引的创新和实践探讨——以《中国大百科全书》第三版(网络版)为例[J].传播与版权,2020(12):93-95.
2吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
3张琳,胡杰,应力,浦丽娜.汉语问答系统概念查询扩展研究[J].郑州大学学报（理学版）,2009,41(1):69-72. 被引量：1
4梁华清.基于Web的远程教学系统的设计[J].中国科教创新导刊,2007(12):95-96. 被引量：1
5向俊,王静,何一辉.远程教学资源整合及检索系统研究[J].广西广播电视大学学报,2012,23(3):41-45.
6黄子越,万常选.XML检索中基于聚类的查询词扩展[J].电子科技大学学报,2009,38(S1):29-33. 被引量：1
7王瑞琴,孔繁胜.基于无导词义消歧的语义查询扩展[J].情报学报,2011,30(2):131-137. 被引量：4
8朱月秀.Web日志挖掘的模糊动态聚类算法[J].漳州师范学院学报（自然科学版）,2005,18(4):15-20. 被引量：1
9王媛媛,钟永恒.基于SQL Server 2005的Web日志挖掘系统构建[J].现代图书情报技术,2006(5):58-61. 被引量：7
10程德理,张新玲,黄立平.基于数据挖掘的个性化电子商务模型设计[J].情报杂志,2006,25(8):8-10. 被引量：3

1陈严纯,梁立.大数据导入数据库的方法与实现[J].电脑编程技巧与维护,2013(18):27-29. 被引量：1
2龙龙.鼠标的另类应用技巧[J].电脑知识与技术（经验技巧）,2008(5):75-76.
3张骞,张霞,刘积仁,孙雨,文学志,刘铮.混合P2P环境下有效的查询扩展及其搜索算法[J].软件学报,2006,17(4):782-793. 被引量：9
4欧阳柳波,谭睿哲.一种基于本体和用户日志的查询扩展方法[J].计算机工程与应用,2015,51(1):151-155. 被引量：3
5陈子华.数据采集系统与DCS多项目软件包的使用与优化[J].石油化工自动化,2008,44(5):12-16.
6杨丽洁.面向LinuxNC的Java虚拟机的性能优化[J].计算机应用,2006,26(5):1152-1154. 被引量：1
7盛昭瀚,张传芹,赵佳宝.基于工作流的企业业务过程集成建模方法[J].管理科学学报,2003,6(2):35-40. 被引量：3
8鲜学丰,崔志明,赵朋朋,方立刚,杨元峰,顾才东.基于属性值序列图模型的deep Web新数据发现策略[J].通信学报,2016,37(3):20-32. 被引量：3
9张永军,徐红,王志华.一种P2P环境下基于查询日志的查询路由策略[J].计算机与数字工程,2009,37(8):105-108. 被引量：2
10袁春阳,李青山,王永建.基于行为与域名查询关联的僵尸网络聚类联动监测[J].计算机应用研究,2012,29(3):1084-1087. 被引量：5

软件学报

2003年第9期

浏览历史

内容加载中请稍等...

基于用户日志的查询扩展统计模型被引量：61

参考文献10

同被引文献630

引证文献61

二级引证文献328

相关作者

相关机构

相关主题

浏览历史

基于用户日志的查询扩展统计模型 被引量：61

参考文献10

同被引文献630

引证文献61

二级引证文献328

相关作者

相关机构

相关主题

浏览历史

基于用户日志的查询扩展统计模型被引量：61