基于加权TextRank的文本关键词提取方法被引量：23

Text Keyword Extraction Method Based on Weighted TextRank

下载PDF

导出

摘要为提升提取文本关键词的准确性,文中提出了一种文本关键词提取方法。该方法融合词频、词长、词语位置及词性等关键词提取影响因素,提出了候选关键词的权重公式;通过实验获取权重公式的相对最优权重系数;将权重公式应用到TextRank算法的候选关键词得分公式中,以提升提取文本关键词的准确性。通过实验对比了OPW-Text-Rank算法与TextRank算法对单文本关键词提取的准确率、召回率及F值,结果表明,OPW-TextRank算法在窗口大小为6时,提取关键词的准确率高于TextRank算法。在以文本关键词提取为基础的自然语言处理系统中所提算法具有一定的实用性。 To improve the accuracy of keyword extraction,a text keyword extraction me-thod was proposed.This method combines the influence factors such as word frequency,word length,word position and word length,proposes the weight formula of candidate keywords.Then it obtains the relative optimal weight coefficient in the weight formula by experiment,applies the weight formula to the candidate keyword scoring formula of TextRank algorithm,and extracts the accuracy of text keywords.The accuracy,recall and F value of OPW-TextRank algorithm and TextRank algorithm in single text keyword extraction were compared through the experiment.The results show that the accuracy of OPW-TextRank algorithm is higher than that of TextRank algorithm when the window size is 6.It is useful in natural language processing keyword system based on text keyword extraction.

作者徐立 XU Li(School of Software,Shangqiu Polytechnic,Shangqiu,Henan 476100,China;Suzhou Research Institute,University of Science and Technology of China,Suzhou,Jiangsu 215000,China)

机构地区商丘职业技术学院软件学院中国科学技术大学苏州研究院

出处《计算机科学》 CSCD 北大核心 2019年第B06期142-145,共4页 Computer Science

关键词关键词提取加权词频 TextRank Keyword extraction Weighting Word frequency TextRank

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
2杨玥,张德生.中文文本的主题关键短语提取技术[J].计算机科学,2017,44(B11):432-436. 被引量：5
3夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
4张建娥.基于多特征融合的中文文本关键词提取方法[J].情报理论与实践,2013,36(10):105-108. 被引量：17
5夏火松,甄化春.大数据环境下舆情分析与决策支持研究文献综述[J].情报杂志,2015,34(2):1-6. 被引量：56
6曲靖野,陈震,胡轶楠.共词分析与LDA模型分析在文本主题挖掘中的比较研究[J].情报科学,2018,36(2):18-23. 被引量：22
7李鹏,王斌,石志伟,崔雅超,李恒训.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351. 被引量：56
8张璐,芦天亮,杜彦辉.基于WMF_LDA主题模型的文本相似度计算[J].计算机应用研究,2019,36(10):2916-2919. 被引量：10

二级参考文献95

1张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50(S2):216-233. 被引量：379
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
3以科技手段辅助网络舆情突发事件的监测分析——方正智思舆情辅助决策支持系统[J].信息化建设,2005(10):50-52. 被引量：16
4张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
5索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
6马费成,望俊成,陈金霞,胡超.我国数字信息资源研究的热点领域:共词分析透视[J].情报理论与实践,2007,30(4):438-443. 被引量：79
7Yih W, Goodman J, Carvalho V R. Finding advertising keywords on Web pages [C]//Proc of WWW'06. New York: ACM, 2006:213-222.
8Kelleher D, I.uz S. Automatic hypertext kcyphrase detection [C] //Proc of IJCAI-05. San Francisco: Morgan Kaufmann, 2005:1608-1609.
9Turney P D. Coherent keyphrase extraction via web mining [C]//Proc of IJCAI 03. San Francisco: Morgan Kaufmann, 2003:434-439.
10Hulth A. Improved automatic keyword extraction given more linguistic knowledge[C] //Proc of EMNLP'03. Stroudsburg: ACL, 2003:216-223.

共引文献256

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
3聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
4黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：21
5董屹.大数据技术在网络舆情监控的应用[J].电子技术（上海）,2020,49(3):88-89. 被引量：1
6果天廓.发挥舆情监测作用提升新闻传播力——以京津冀协同发展中水污染治理问题的社会关注为例[J].传播力研究,2020,4(6):23-23.
7李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
8王永亮,郭巧,曹奇敏.一种基于同义词的中文关键词提取方法[J].江南大学学报（自然科学版）,2013,12(5):620-625. 被引量：2
9陈荟慧,舒云星,林丽.多语种Web新闻语料抓取的通用模型研究[J].洛阳理工学院学报（自然科学版）,2013,23(4):34-39. 被引量：1
10曾文,徐硕,张运良,翟娟华.科技文献术语的自动抽取技术研究与分析[J].现代图书情报技术,2014(1):51-55. 被引量：16

同被引文献237

1罗杨,沈晴霓,吴中海.一种基于元模型的访问控制策略描述语言[J].软件学报,2020,31(2):439-454. 被引量：5
2杨保军.新闻文本的个性特征[J].当代传播,2004(2):10-11. 被引量：18
3朱旭峰,苏钰.西方思想库对公共政策的影响力——基于社会结构的影响力分析框架构建[J].世界经济与政治,2004(12):21-26. 被引量：93
4田海龙.语篇研究的批评视角:从批评语言学到批评话语分析[J].山东外语教学,2006,27(2):40-47. 被引量：90
5王宁.浅析潜在语义分析的原理及其应用[J].新世纪图书馆,2007(5):67-70. 被引量：2
6刘里,曾庆田.自动问答系统研究综述[J].山东科技大学学报（自然科学版）,2007,26(4):73-76. 被引量：21
7唐成虹,宋斌,胡国,潘汉广,路小俊,张吉.基于IEC 61850标准的新型变电站防误系统[J].电力系统自动化,2009,33(5):96-99. 被引量：33
8张志飞,苗夺谦.基于粗糙集的文本分类特征选择算法[J].智能系统学报,2009,4(5):453-457. 被引量：8
9赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：544
10何克抗.我国教育信息化理论研究新进展[J].中国电化教育,2011(1):1-19. 被引量：446

引证文献23

1李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
2陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：15
3李文全,徐素萍.科技成果转化平台的关键技术研究[J].韶关学院学报,2020,41(9):13-17. 被引量：1
4罗东霞,卿粼波,吴晓红.基于Lucene的中文是非问答系统的设计与实现[J].信息技术与网络安全,2020,39(11):74-78. 被引量：1
5陈波,谢珺,苗夺谦,王雨竹,续欣莹.基于粗糙集和多通道词向量的中文文本情感特征分析[J].中文信息学报,2020,34(8):94-104. 被引量：3
6欧一鸣,苏雍贺,邹孝付,靳健,张长志,陶飞.面向智慧运维的分布式光伏知识库构建方法[J].计算机集成制造系统,2020,26(12):3205-3215. 被引量：9
7马刚,李红云.文本差异性分析与建模[J].电脑编程技巧与维护,2021(2):3-5.
8张誉曜,陈媛媛.美国著名智库文本成果研究——以人工智能领域为例[J].图书馆论坛,2021,41(2):152-160. 被引量：7
9张誉曜,陈媛媛.文本挖掘下的话语认知与构建——以人工智能和5G领域白宫新闻文本为例[J].农业图书情报学报,2021,33(4):35-44. 被引量：2
10解仲秋.基于时空大数据挖掘的网络舆情研判方法研究[J].电子设计工程,2021,29(8):177-181. 被引量：1

二级引证文献72

1彭德军,曹树斌,马平,赵俊达.煤矿安全隐患信息关键语义智能提取方法研究[J].煤炭工程,2022,54(S01):224-229. 被引量：3
2靳嵩,朱艳,吴可嘉,孟祥松,赵乾菊,王颖.基于BERT的海上船舶安全隐患分类[J].船舶工程,2023,45(S01):381-384.
3李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
4郑丽敏,齐珊珊,田立军,杨璐.面向食品安全事件新闻文本的实体关系抽取研究[J].农业机械学报,2020,51(7):244-253. 被引量：16
5叶天宽,黎伟健,彭涛,胡莉琼,陈钦顺,朱凯亮.基于评改一体化提升互联网5G产品NPS的方法研究[J].科技传播,2021,13(3):159-162.
6白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1
7王军.基于计算机网络的无线网络异常信息流过滤方法[J].长江信息通信,2021(3):77-79. 被引量：2
8胡吉明,田沛霖.文本智能计算研究的主题挖掘与演化分析[J].情报杂志,2021,40(4):139-146. 被引量：6
9谢宇杰,王赜,薛雯,吕沫,傅健伦.基于大数据分析的企业信息知识图谱的构建与应用[J].启迪,2021(5):17-17.
10齐平平.TextRank与用户情感倾向在推荐算法中的研究[J].科技创新导报,2021,18(11):159-161.

1徐明明,杨文璐,夏斌,谢宏.基于改进RAKE算法的商品关键词提取方法[J].现代计算机,2018,24(14):7-11. 被引量：2
2李达.高中英语语法填空解题策略分析[J].校园英语,2018,0(30):126-126.
3任博洋.高中英语语法填空解题策略的分析[J].校园英语,2017,0(51):102-102.
42018中国广播电视行业十大科技关键词揭晓[J].传媒,2019,0(7):7-7.
5方俊伟,崔浩冉,贺国秀,陆伟.基于先验知识TextRank的学术文本关键词抽取[J].情报科学,2019,37(3):75-80. 被引量：16
6毕研萍.安全护理隐患及对策在妇产科护理中的重要性分析[J].世界最新医学信息文摘,2019,19(32):234-234. 被引量：1
7人民网.2018中国广播电视行业十大科技关键词揭晓[J].声屏世界,2019,0(2):70-70.
8柯艳媚.信息化教学模式的优势需要经受实验对比[J].高考,2019(15):282-282.
9王涛,李明.改进的关键词提取算法研究[J].重庆师范大学学报（自然科学版）,2019,36(3):98-104. 被引量：8
10段博文.基于指数递减型惯性权重的改进萤火虫算法[J].科学技术创新,2019(13):81-82. 被引量：1

计算机科学

2019年第B06期

浏览历史

内容加载中请稍等...

基于加权TextRank的文本关键词提取方法被引量：23

参考文献8

二级参考文献95

共引文献256

同被引文献237

引证文献23

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

基于加权TextRank的文本关键词提取方法 被引量：23

参考文献8

二级参考文献95

共引文献256

同被引文献237

引证文献23

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

基于加权TextRank的文本关键词提取方法被引量：23