摘要
为了获取高质量的扩展词,提出一种面向查询扩展的基于文本数据库的特征词频繁项集挖掘算法。该算法采用支持度衡量特征词频繁项集,给出新的剪枝策略,并结合原始查询,挖掘同时含有查询词项和非查询词项的特征词频繁项集,以提高挖掘效率。实验表明,与传统的挖掘算法相比,本算法更有效、更合理。
In this paper, a novel algorithm is proposed to mine feature - words frequent itemsets in text database, in order to obtain high - quality expansion terms for query expansion. This algorithm uses the support to measure the frequent itemsets, and only to mine those frequent itemsets containing original query terms and non - query terms synchronously. It can tremendously enhance the mining efficiency. The experimental results demonstrate that the algorithm is more efficient and more feasible than traditional ones.
出处
《现代图书情报技术》
CSSCI
北大核心
2011年第4期48-51,共4页
New Technology of Library and Information Service
基金
广西教育厅科研项目"基于加权负关联规则挖掘的文本信息检索技术研究"(项目编号:201010LX679)
广西教育学院2010年度院级重点课题"基于正负关联规则的信息检索技术研究"(项目编号:桂教院科研[2010]7号(重点)-3)的研究成果之一
关键词
频繁项集
挖掘
支持度
查询扩展
Frequent itemset Mining Support Query expansion