期刊文献+

查询主题分类方法研究 被引量:4

Research on Query Topic Classification Method
原文传递
导出
摘要 【目的】通过对查询串进行扩展,实现查询串的主题分类。【方法】利用伪相关反馈技术得到查询串扩展文本抽取文本特征,并提出一种向量空间压缩算法对特征进行融合,分别利用向量余弦夹角和SVM模型对其进行分类。【结果】实验结果中正确率、召回率、F值和整体正确率分别达到90.34%、89.34%、89.67%和89.24%。【局限】根据搜索引擎返回结果进行查询扩展,在线处理效率不高。【结论】该方法对查询主题分类是有效的,并且利用机器学习方法比利用余弦夹角有更好的效果,且对于提高搜索引擎质量有重要意义。 [Objective] Expand the queries to get the query topic. [Methods] Get the query expansion text by using the pseudo-feedback technology, extract the text features and combine them by the proposed partial matching rules and vector space compression algorithm. In the end, the query topic classification can be done by the Cosine Include Angle and SVM. [Results] The precision can reach 90.34%, the recall rate is 89.34%, the F value is 89.67% and the accuracy is 89.24%. [Limitations] Online processing efficiency is not high because of expanding the queries using the searching results. [Conclusions] The proposed method is effective in query topic classification. Using the machine learning method can get the better experimental results than the Cosine Include Angle and it is significative for improving the quality of search engine.
出处 《现代图书情报技术》 CSSCI 2015年第4期10-17,共8页 New Technology of Library and Information Service
基金 国家自然科学基金项目"基于本体的专利自动标引研究"(项目编号:61271304) 国家科技支撑计划项目"基于重点目标自动跟踪采集技术的智能视频监控系统研发"(项目编号:2013BAK02B02) 北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(项目编号:KZ201311232037)的研究成果之一
关键词 查询串主题分类 伪相关反馈 查询扩展 向量空间压缩算法 Query topic classification Pseudo feedback Query expansion Vector space compression algorithm
  • 相关文献

参考文献14

  • 1张宇,宋巍,刘挺,李生.基于URL主题的查询分类方法[J].计算机研究与发展,2012,49(6):1298-1305. 被引量:14
  • 2余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量:117
  • 3付博,赵世奇,刘挺.Web查询日志研究综述[J].电子学报,2013,41(9):1800-1808. 被引量:8
  • 4Broder A.A Taxonomy of Web Search [J].ACM SIGIR Forum,2002,36(2):3-10.
  • 5陆伟,周红霞,张晓娟.查询意图研究综述[J].中国图书馆学报,2013,39(1):100-111. 被引量:27
  • 6Shen D,Pan R,Sun J,et al.Query Enrichment for Web-query Classification [J].ACM Transactions on Information Systems,2006,24(3):320-352.
  • 7Broder A Z,Fontoura M,Gabrilovich E,et al.Robust Classification of Rare Queries Using Web Knowledge[C].In:Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'07).New York:ACM,2007:231-238.
  • 8Shen D,Li Y,Li X,et al.Product Query Classification[C].In:Proceedings of the 18th ACM Conference on Information and Knowledge Management(CIKM'09).New York:ACM,2009:741-750.
  • 9Poli R,Healy M,Kameas A.Theory and Applications of Ontology:Computer Applications [M].Dordrecht:Springer,2010.
  • 10Hu J,Wang G,Lochovsky F,et al.Understanding User's Query Intent with Wikipedia [C].In:Proceedings of the 18th International Conference on World Wide Web(WWW'09).New York:ACM,2009:471-480.

二级参考文献199

  • 1张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量:121
  • 2屈军,林旭.文本分类中特征提取方法的比较与分析[J].现代计算机,2007,13(4):10-13. 被引量:8
  • 3陈世立,高野军.基于神经网络与贝叶斯的混合文本分类研究[J].情报杂志,2007,26(5):34-36. 被引量:3
  • 4Cockburn,A.,& Jones,S.Which way now? Analyzing and easing inadequacies in WWW navigation[J].International Journal of Human-Computer Studies,1996,45,105-129.
  • 5Catledge,L.D.,& Pitkow,J.E.Characterizing Browsing Strategies in the World-Wide Web[J].Computer Networks and ISDN Systems,1995,27,1065-1073.
  • 6Tauscher,L.,& Greenberg,S.How people revisit web pages:Empirical findings and implications for the design of history systems[J].International Journal of Human-Computer Studies,1997,47,97-137.
  • 7Craig Silverstein,Monika Henzinger,Hannes Marais,et al.Analysis of a very large Web search engine query log[J].In SIGIR Forum,fall 1998,Volume 33:Number 1,6-12.
  • 8Jansen,B.J.,Spink,A.,Bateman,J.,& Saracevic,T.Real life information retrieval:A study of user queries on the Web[J].SIGIR Forum,1998,32(1):5-17.
  • 9第14次中国互联网络发展状况统计报告[R].中国互联网络信息中心(CNNIC),2004年7月.
  • 10第15次中国互联网络发展状况统计报告[R].中国互联网络信息中心(CNNIC),2005年1月.

共引文献182

同被引文献75

引证文献4

二级引证文献40

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部