应用于信息检索的统计语言模型研究进展被引量：4

Progress in Research on Statistical Language Modeling for Information Retrieval

下载PDF

导出

摘要统计语言模型作为一种自然语言处理的工具,已经被证明有能力处理大规模真实文本。而统计语言模型和IR相结合后所形成的SLM-IR模型的提出,是信息检索模型研究上的重大进展。本文介绍了统计语言模型在信息检索领域的基本模型及相关问题,重点分析了Lemur工具箱和标题语言模型的原理及模型,最后从整体上介绍了该领域的国际动态和研究进展情况。 As a natural language processing tool, statistical language modeling is proved to be able to process large-scale real text. The advance of SLM-IR model, which is the combination of Statistical Language Modeling （SLM） and Information Retrieval （IR） , represents a great progress in the research on IR modeling. This paper introduces the basic model of SLM in IR field and some related problems with emphasis on analyzing the principles and modeling of Lemur and Title Language Model. Finally, the paper introduces the development trend and research progress of this field in the world.

作者李纲郑重

机构地区武汉大学信息资源研究中心

出处《情报理论与实践》 CSSCI 北大核心 2008年第3期471-476,共6页 Information Studies:Theory & Application

基金国家自然科学基金项目"文本集特征提取方法及应用研究"的研究成果之一项目编号:70673070

关键词信息检索统计语言模型查询条件概率模型主题语言模型 information retrieval statistical language modeling query-likelihood model title language model

分类号 G354 [文化科学—情报学]

引文网络
相关文献

参考文献13

1Brown P F, Cocke J, Della Pietra S A, et al. A statistical approach to machine translation [ J]. Computational Linguistics, 1990, 16 (2): 79-85.
2Ponte J, Croft W B. A language modeling approach to informationretrieval [C]// Proc. 21st Int. Conf. Research and Development in Information Retrieval ( SIGIR'98), 1998. 275- 281.
3Miller D H, Leek T, Schwartz R. A hidden Markov model information retrieval system [ C ] //Proceedings of the 1999 ACM SIGIR Conference on Research and Development in Information Retrieval, 1999 : 214- 221.
4Lafferty J, Zhai C. Risk minimization and language modeling in information retrieval [ C ]. 24th ACM SIGIR Conference on Research and Development in Informatio Retrieval ( SIGIR01 ), 2001.
5Bahl L, Jelinek F, Mercer R. A maximum likelihood approach to continuous speech recognition [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1983, 5 ( 2 ) : 179-190.
6http: //www-2. cs. cmu. edu/-lemur.
7Jin Rong, Hauptmann A G, Zhai ChengXiang. Title language model for information retrieval [ C ] //Proc. 25th SIGIR, 2002:42-48.
8Brown P F, DellaPietra S A, DellaPietra V J, et al. The mathmatics of statistical machine translation: parameter estimation [J]. Computational Linguistics, 1993, 1 (2).
9Zhai Chengxiang, Lafferty J. Two-stage language models for information retrieval [C]. SIGIR, 2002:49-56.
10Lee Changki, Lee G G. Dependency structure language model for information retrieval [C]. SIGIR, 2003.

同被引文献45

1张俊林,曲为民,杜林,孙玉芳.跨语言信息检索研究进展[J].计算机科学,2004,31(7):16-19. 被引量：17
2黄昌宁.统计语言模型能做什么?[J].语言文字应用,2002(1):77-84. 被引量：31
3朱佳鸣.Google Scholar Beta检索性能的初步分析[J].图书情报工作,2005,49(12):115-119. 被引量：8
4蒋凯,武港山.基于Web的信息检索技术综述[J].计算机工程,2005,31(24):7-9. 被引量：20
5孙晋文,肖建国.基于SVM文本分类中的关键词学习研究[J].计算机科学,2006,33(11):182-184. 被引量：12
6王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,21(2):35-45. 被引量：50
7王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量：23
8刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
9张敬芝,高强,耿桦,潘金贵.统计自然语言处理中的线性插值平滑技术[J].计算机科学,2007,34(6):223-225. 被引量：4
10Joaehims T. A probabilistic analysis of the Roeehio algorithm with TFIDF for text categorization [ C ]//Proceedings of the Fourteenth International Conference on Machine Learning. 1997 : 143-151.

引证文献4

1赵敏涯.结合语言模型的自动文本分类的应用研究[J].计算机与现代化,2010(3):141-143.
2魏瑞斌.基于微软学术搜索的信息检索研究的文献计量分析[J].图书情报工作,2012,56(20):53-57. 被引量：4
3康筱彬.统计语言模型浅析[J].科技风,2015(12):33-33. 被引量：1
4倪丹,韩立新.基于时间的个性化微博搜索模型[J].微型电脑应用,2017,33(2):46-50.

二级引证文献5

1刘桂锋,李文娟,卢章平.基于微软学术搜索的国外图书馆学研究计量分析[J].图书情报研究,2015,8(4):38-47.
2魏瑞斌,郭一娴.基于用户体验的百度学术应用研究[J].现代情报,2017,37(5):89-97. 被引量：10
3张贵兰,王健,周国民,刘建平,韦草原.相关性研究及其在农业科学数据领域的应用展望——基于文献计量方法[J].农业展望,2018,14(1):57-64.
4叶凤云,李君君.移动互联网用户学术搜索满意度实证研究[J].情报科学,2018,36(10):58-63. 被引量：7
5王丽雪,王继周,毛曦,马维军,刘东琴,路文娟.西班牙语地名机器翻译方法设计与实验[J].测绘科学,2023,48(5):206-212.

1王志勇,耿亦兵.统计语言模型在文本信息检索中的应用[J].中国索引,2003,0(1):32-35.
2张俊林,孙乐,孙玉芳.基于主题语言模型的中文信息检索系统研究[J].中文信息学报,2005,19(3):14-20. 被引量：4
3苏绥,林原,林鸿飞.语言模型在信息检索中的应用[J].情报学报,2011,30(7):704-713. 被引量：4
4钱如栏,董云耀.中文问答系统中基于SLM的信息检索及其平滑技术研究[J].计算机工程与科学,2010,32(1):136-140.
5文健,李舟军.基于聚类语言模型的生物文献检索技术研究[J].中文信息学报,2008,22(1):61-66. 被引量：3
6王彪,高光来.界模型信息检索及其参数优化[J].计算机工程与应用,2012,48(1):153-156.
7李晓光,王大玲,于戈.基于统计语言模型的信息检索[J].计算机科学,2005,32(8):124-127. 被引量：9
8李生,赵铁军,周明,王跃进,邱祥辉.机器翻译语言模型的探讨[J].情报科学,1989,10(3):19-22.
9乔亚男,齐勇,侯迪.文本信息检索实验方法研究[J].中国科技论文在线,2009,4(2):126-129. 被引量：1
10郭燕慧,钟义信.统计语言模型中句子的语义连贯性判别[J].情报学报,2003,22(4):472-475.

情报理论与实践

2008年第3期

浏览历史

内容加载中请稍等...

应用于信息检索的统计语言模型研究进展被引量：4

参考文献13

同被引文献45

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

应用于信息检索的统计语言模型研究进展 被引量：4

参考文献13

同被引文献45

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

应用于信息检索的统计语言模型研究进展被引量：4