采用相关反馈和文档相似度的维吾尔语检索词加权方法

Uyghur Retrieval Word Weighting Scheme Using Relevance Feedback and Document Similarity

下载PDF

导出

摘要针对维吾尔语Web文档的有效检索问题,提出一种基于相关反馈和文档相似度的检索词加权方法.首先,对维吾尔语文档进行预处理,获得相应的词干集.然后,当用户输入多个检索词时,执行初始检索,并基于局部相关反馈思想提取出排名靠前的N个文档.接着,利用TF-IDF算法计算检索词与反馈文档之间的词频相似度,通过余弦距离计算文档之间的相似度,并以此对检索词进行两次加权.最后,根据加权后的检索词进行文档检索.实验结果表明:该方法能够准确地检索出用户所需的文档,并将其靠前排序. For the issue that the effective retrieval of Uyghur web documents, a Uyghur retrieval word weigh-ting scheme based on the relevance feedback and document similarity is proposed. First of all, the Uyghur doc-uments are pre-processed to obtain the corresponding stem set. Then, the initial search is executed when the user input a number of retrieval words, and it extracts the top N documents based on local relevance feedback. Follow, the TF-IDF algorithm is used to compute the frequency similarity between retrieval word and feedback documents. At the same time, the cosine distance is used to compute the similarity between documents, so as to make twice weighted for retrieval words. Finally？ it performs document retrieval according to the weight of retrieval words. Experimental results show that the proposed method can accurately retrieve the documents re-quired by the user, and can sort them in the front.

作者于丽亚森.艾则孜 YU Li YASEN · AIZEZI(Department of Information Security Engineering, Xinjiang Police College, Urumqi 830011, China)

机构地区新疆警察学院信息安全工程系

出处《华侨大学学报（自然科学版）》北大核心 2017年第3期408-413,共6页 Journal of Huaqiao University(Natural Science)

基金新疆维吾尔自治区自然科学基金资助项目(2015211A016)

关键词维吾尔语文档检索检索词加权相关反馈文档相似度 Uygur document retrieval weighted retrieval words relevance feedback document similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1彭凯,汪伟,杨煜普.基于余弦距离度量学习的伪K近邻文本分类算法[J].计算机工程与设计,2013,34(6):2200-2203. 被引量：19
2亚力青.阿里玛斯,哈力旦.阿布都热依木,陈洋.基于向量空间模型的维吾尔文文本过滤方法[J].新疆大学学报（自然科学版）,2015,32(2):221-226. 被引量：4
3陈雅兰,胡小华,涂新辉,何婷婷.基于位置语言模型的中文信息检索系统的研究[J].计算机科学,2015,42(7):265-269. 被引量：3
4年梅,张兰芳.维吾尔文网络查询扩展词的构建研究[J].计算机工程,2015,41(4):187-189. 被引量：3
5李卫疆,赵铁军,王宪刚.基于上下文的查询扩展[J].计算机研究与发展,2010,47(2):300-304. 被引量：32
6陈志敏,姜艺,赵耀.基于用户查询扩展的自动摘要技术[J].计算机应用研究,2011,28(6):2188-2190. 被引量：5
7麦热哈巴·艾力,姜文斌,王志洋,吐尔根·依布拉音,刘群.维吾尔语词法分析的有向图模型[J].软件学报,2012,23(12):3115-3129. 被引量：22
8阿丽亚·艾尔肯,哈力旦·阿布都热依木.KNN和SVM分类器对维吾尔文文本分类性能的比较研究[J].新疆大学学报（自然科学维文版）,2015,36(2):59-65. 被引量：1

二级参考文献78

1刘挺,吴岩,王开铸.基于信息抽取和文本生成的自动文摘系统设计[J].情报学报,1997,16(S1):31-36. 被引量：13
2张敏,宋睿华,马少平.基于语义关系查询扩展的文档重构方法[J].计算机学报,2004,27(10):1395-1401. 被引量：55
3陈志敏,沈洁,林颖,周峰.基于主题划分的网页自动摘要[J].计算机应用,2006,26(3):641-644. 被引量：8
4丁国栋,白硕,王斌.文本检索的统计语言建模方法综述[J].计算机研究与发展,2006,43(5):769-776. 被引量：19
5丁国栋,白硕,王斌.一种基于局部共现的查询扩展方法[J].中文信息学报,2006,20(3):84-91. 被引量：44
6张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
7Ponte J, Croft W. A language modeling approach to information retrieval [C] //Proc of the 21st ACM Conf on Research and Development in Information Retrieval (SIGIR'98). New York: ACM, 1998:222-229.
8Richardson R, Smeaton A. Using Wordnet in a knowledgebased approach to information retrieval, ca-0395 [R]. Dublin: Trinity College Dublin, 1995.
9Lin D-K, Zhao S-J. Identifying synonyms among distributionally similar words [C]//Proc of Int Joint Conf of Artificial Intelligence (IJCAI2003). Acapuleo: Elsevier, 2003:Ⅰ492-Ⅰ493.
10Xu J, Croft W. Query expansion using local and global document analysis [C] //Proc of the 19th Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1996:4-11.

共引文献81

1俞佳熠,钱卫东,徐永军.一种自动生成炼钢专家规则算法图的方法[J].冶金自动化,2023,47(S01):368-372. 被引量：1
2梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
3安俊秀.基于服务器集群的云检索系统的研究与示范[J].计算机科学,2010,37(7):179-182. 被引量：7
4刘金岭.基于查询词扩展的中文垃圾短信检索[J].计算机工程,2011,37(8):52-54. 被引量：6
5刘金岭,严云洋.基于上下文的短信文本分类方法[J].计算机工程,2011,37(10):41-43. 被引量：13
6王海云,刘金岭.基于查询词扩展的文本检索算法研究[J].计算机与数字工程,2011,39(6):15-17. 被引量：1
7涂俊翔,朱晓林.协同企业产品生命周期管理系统信息的检索[J].中国工程机械学报,2011,9(2):244-248.
8杨石,邹国奇,杨作为.一种扩展功能可选取的文本检索系统[J].大众科技,2011,13(10):22-24.
9黄名选.负关联规则挖掘与特征词抽取融合的局部反馈查询扩展[J].计算机工程与科学,2011,33(11):144-148. 被引量：2
10王力,李培峰,朱巧明.一种面向主题的关键词查询扩展方法[J].计算机应用与软件,2011,28(12):29-31. 被引量：3

1黄敏,赖茂生.语义检索研究综述[J].图书情报工作,2008,52(6):63-66. 被引量：33
2Chaoqun LI,Liangxiao JIANG,Hongwei LI.Naive Bayes for value difference metric[J].Frontiers of Computer Science,2014,8(2):255-264. 被引量：3
3王素红,宁慧,杨松,徐丽.基于SVM的抄袭检测方法研究[J].应用科技,2015,42(5):51-54. 被引量：1
4任桢,李晨.多媒体文献检索系统搜索算法[J].计算机与数字工程,2007,35(8):33-34.
5梁广锡,张文修.包含度及其在专家系统中的应用[J].工程数学学报,1994,11(4):13-24. 被引量：7
6温浩然.基于XML的结构化科技文档检索的研究[J].信息系统工程,2012,25(8):137-138. 被引量：1
7赵小龙,张步群,丁为民.基于粒计算Web文档聚类[J].计算机工程与应用,2008,44(13):141-143. 被引量：1
8牛蕾,倪林.基于内容的图像检索中的相关反馈算法[J].计算机工程与应用,2004,40(32):65-70. 被引量：7
9麦热哈巴.艾力,阿孜古丽.夏力甫,吐尔根.依布拉音.维吾尔语多词表达抽取方法研究[J].计算机工程与应用,2014,50(8):26-30. 被引量：3
10孙昌,朱允斌,金城,肖晓滨.基于混合特征的近似重复图像检索方法[J].微型电脑应用,2015,31(9):21-24.

华侨大学学报（自然科学版）

2017年第3期

浏览历史

内容加载中请稍等...

采用相关反馈和文档相似度的维吾尔语检索词加权方法

参考文献8

二级参考文献78

共引文献81

相关作者

相关机构

相关主题

浏览历史