摘要
统计语言模型作为一种自然语言处理的工具,已经被证明有能力处理大规模真实文本。而统计语言模型和IR相结合后所形成的SLM-IR模型的提出,是信息检索模型研究上的重大进展。本文介绍了统计语言模型在信息检索领域的基本模型及相关问题,重点分析了Lemur工具箱和标题语言模型的原理及模型,最后从整体上介绍了该领域的国际动态和研究进展情况。
As a natural language processing tool, statistical language modeling is proved to be able to process large-scale real text. The advance of SLM-IR model, which is the combination of Statistical Language Modeling (SLM) and Information Retrieval (IR) , represents a great progress in the research on IR modeling. This paper introduces the basic model of SLM in IR field and some related problems with emphasis on analyzing the principles and modeling of Lemur and Title Language Model. Finally, the paper introduces the development trend and research progress of this field in the world.
出处
《情报理论与实践》
CSSCI
北大核心
2008年第3期471-476,共6页
Information Studies:Theory & Application
基金
国家自然科学基金项目"文本集特征提取方法及应用研究"的研究成果之一
项目编号:70673070
关键词
信息检索
统计语言模型
查询条件概率模型
主题语言模型
information retrieval
statistical language modeling
query-likelihood model
title language model