基于PageRank的新闻关键词提取算法被引量：15

Keyword Extraction from News Articles Based on PageRank Algorithm

下载PDF

导出

摘要现有的基于复杂网络的关键词提取算法在构建加权文本网络时没有考虑文本的自然语言特性,且在提取关键词时较少涉及复杂网络领域经典算法。本文引入词频分享权重,利用词频特性为节点之间的连边加权。在此基础上,基于Page Rank算法,并结合人类语言习惯特性定义位置权重系数,提出了一个新的新闻关键词提取算法——LTWPR算法,综合考虑了文本网络的局部特征和全局特征。采用新浪新闻语料进行了大量实验,结果表明该算法能够快速有效的覆盖新闻作者标注的关键词,且提取效果更佳。 Most of the existing methods of extracting keyword based on complex networks ignore the natural language characters when building the weighted text network. In the meantime, they involve less the classical algorithms in complex network field. Based on PageRank algorithm, we propose a keyword extraction method, named LTWPR （located and TF-weighted PageRank）, which takes into consideration term-frequency character and human language characters. The algorithm creates a term-frequency-shared weight in order to share the node＇s term-frequency value to its links, and defines a position weight coefficient to express different importance of words in different positions of news articles. LTWPR brings text networks＇ local and global features into consideration, making the results more accurate. Comprehensive experiments are conducted based on news articles grabbed from Sina News. Experimental results show that LTWPR algorithm is more effective and can better cover the keywords tagged by authors.

作者顾亦然许梦馨

机构地区南京邮电大学自动化学院

出处《电子科技大学学报》 EI CAS CSCD 北大核心 2017年第5期777-783,共7页 Journal of University of Electronic Science and Technology of China

基金教育部人文社会科学研究规划基金(15YJZH016)

关键词复杂网络关键词提取自然语言 PAGERANK 词频分享权重 complex networks keyword extraction natural language PageRank term-frequency- shared weight

分类号 TP311 [自动化与计算机技术—计算机软件与理论] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1谢凤宏,张大为,黄丹,谢福鼎.基于加权复杂网络的文本关键词提取[J].系统科学与数学,2010,30(11):1592-1596. 被引量：14
2刘通.基于复杂网络的文本关键词提取算法研究[J].计算机应用研究,2016,33(2):365-369. 被引量：17
3任晓龙,吕琳媛.网络重要节点排序方法综述[J].科学通报,2014,59(13):1175-1197. 被引量：279
4唐俊.复杂网络在新闻网页关键词提取中的应用[J].云南民族大学学报（自然科学版）,2012,21(4):305-308. 被引量：4

二级参考文献44

1刘建香.复杂网络及其在国内研究进展的综述[J].系统科学学报,2009,17(4):31-37. 被引量：74
2陈勇,胡爱群,胡啸.通信网中节点重要性的评价方法[J].通信学报,2004,25(8):129-134. 被引量：90
3周涛,傅忠谦,牛永伟,王达,曾燕,汪秉宏,周佩玲.复杂网络上传播动力学研究综述[J].自然科学进展,2005,15(5):513-518. 被引量：73
4王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
5ZHOU Tao,FU Zhongqian,WANG Binghong.Epidemic dynamics on complex networks[J].Progress in Natural Science:Materials International,2006,16(5):452-457. 被引量：36
6谭跃进,吴俊,邓宏钟.复杂网络中节点重要度评估的节点收缩方法[J].系统工程理论与实践,2006,26(11):79-83. 被引量：257
7张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
8Bo Jin, Teng Hongfei, Shi Yanjun, Qu Fuzheng. Chinese patent mining based on sememe statistics and key-phrase extraction. Proc. of ADMA Conference, Harbin, 2007.
9Jiao Hui, Liu Qian, Jia Huibo. Chinese keyword extraction based on N-gram and word co- occurrenc. Proc. of International Conference on Computational Intelligence and Security Workshops, Harbin, 2007.
10Ferreri Cancho R, Sole R V. The small world of human language. Biological Sciences, 2001, 268(1482): 2261-2265.

共引文献306

1黄祖南,郑正喜.复杂产业网络度中心性研究[J].统计研究,2021,38(5):147-160. 被引量：8
2何行,刘旺根,何珊,赵振涵.支线航空网络节点的聚类与关键节点识别[J].舰船电子工程,2023,43(1):101-105. 被引量：1
3黎庆,董晓春,沈瑜,郑宣传,宋玮韬.基于多因素聚类的城市轨道交通换乘车站分类方法研究[J].都市快轨交通,2022,35(5):62-68. 被引量：10
4郑蔚.基于复杂性理论的城市经济网络研究进展与展望[J].地理科学进展,2015,34(6):676-686. 被引量：8
5耿稚江.高甘油三酯血症的非药物治疗聚焦鱼油[J].国外医学情报,2000,21(1):22-23.
6刘豆豆.颞颌关节投照方法的探讨[J].中国医学影像技术,2000,16(3):241-242. 被引量：3
7赵辉,刘怀亮,范云杰.复杂网络理论在中文文本特征选择中的应用研究[J].现代图书情报技术,2012(9):23-28. 被引量：17
8翟周伟,刘刚,吕玉琴.基于图模型的关键词挖掘方法[J].软件,2012,33(8):9-13. 被引量：3
9何晓阳,张精理,丁婷.医学新闻关键词自动提取策略[J].中华医学图书情报杂志,2014,23(4):13-17. 被引量：2
10周方,袁永博,张明媛.级联失效下城市多层关键基础设施系统脆弱性分析[J].系统工程,2018,36(7):66-74. 被引量：5

同被引文献109

1周涛,柏文洁,汪秉宏,刘之景,严钢.复杂网络研究概述[J].物理,2005,34(1):31-36. 被引量：239
2王良.Benchmark性能测试综述[J].计算机工程与应用,2006,42(15):45-48. 被引量：9
3刘川意,汪东升.基于HPCC和层次分析法的高性能计算系统评价模型[J].软件学报,2007,18(4):1039-1046. 被引量：10
4赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
5石晶,李万龙.基于LDA模型的主题词抽取方法[J].计算机工程,2010,36(19):81-83. 被引量：47
6苏芳荔.科研合作对期刊论文被引频次的影响[J].图书情报工作,2011,55(10):144-148. 被引量：45
7李畅,王永良,冯晓洁,聂峰.作战文书关键信息抽取方法[J].兵工自动化,2011,30(5):26-29. 被引量：8
8陈仕吉,史丽文,左文革.科学合作网络中节点合作效果评测与分析[J].图书情报工作,2012,56(10):61-66. 被引量：11
9才让卓玛,才智杰.基于语料库的藏语高频词抽取研究[J].计算机工程,2012,38(15):56-58. 被引量：3
10李鹏,王斌,石志伟,崔雅超,李恒训.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351. 被引量：56

引证文献15

1Shengxiang Zhang,Chao Shi,Xin Jiang,Ying Zhang,Lu Zhang.Analysis of the trend of global power sources based on comment emotion mining[J].Global Energy Interconnection,2020,3(3):283-291. 被引量：3
2李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
3魏连波,栾图,陈宝田.急泻停治疗轮状病毒性肠炎的临床研究[J].中医杂志,2000,41(4):226-227. 被引量：6
4黄晓玲,王浩,李磊,伏明兰.基于邻居网络的科学文献关键词提取[J].模式识别与人工智能,2018,31(8):750-762.
5郑宇.基于Web的科技信息管理系统开发与管理[J].微型电脑应用,2019,35(10):142-147. 被引量：3
6王安,顾益军,李坤明,李文政.基于复杂网络词节点移除的关键词抽取方法[J].数据分析与知识发现,2019,3(11):35-42. 被引量：1
7牛伟农,吴林,于水源.一种基于词聚类信息熵的新闻提取方法[J].软件导刊,2020,19(1):36-40. 被引量：1
8胡亚红,王一洲,毛家发.基于PageRank和基准测试的异构集群节点性能评价算法研究[J].计算机工程与科学,2020,42(3):391-396. 被引量：3
9陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：15
10郭强,陈清文,刘建国.基于引文分析的科学家投入产出绩效算法研究[J].电子科技大学学报,2020,49(5):774-779. 被引量：3

二级引证文献41

1彭德军,曹树斌,马平,赵俊达.煤矿安全隐患信息关键语义智能提取方法研究[J].煤炭工程,2022,54(S01):224-229. 被引量：3
2靳嵩,朱艳,吴可嘉,孟祥松,赵乾菊,王颖.基于BERT的海上船舶安全隐患分类[J].船舶工程,2023,45(S01):381-384.
3杨波.中药对轮状病毒肠炎治疗作用研究集析[J].中华中医药学刊,2002,24(9):46-47.
4宋玉田.更昔洛韦联合中药治疗婴幼儿轮状病毒性肠炎36例疗效分析[J].社区医学杂志,2006,4(08S):79-80.
5李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
6任武一,孙国华,郭青兰,李坤书,王四平.婴幼儿轮状病毒性肠炎中药制剂的研究现状[J].中国中医药信息杂志,2001,8(7):28-29.
7李小蓉,朱南方.中西医结合治疗小儿秋季腹泻近况[J].现代中西医结合杂志,2002,11(8):773-774.
8傅谧亚.中药抗病毒临床实验研究概况[J].天津中医学院学报,2002,21(2):49-50. 被引量：6
9孙玉.HTTP协议及WEB开发技术在科技信息管理系统开发中的应用[J].电子元器件与信息技术,2019,3(11):43-44. 被引量：6
10宋超.基于Web的数据库技术与应用研究[J].科学与信息化,2020(14):46-46. 被引量：1

1LI Qian,LAI Jia-wei,XIAO Yun-peng,WU Bin.Information tracing model based on PageRank[J].网络与信息安全学报,2017,3(8):68-76.
2高广峰,吕月萍.用自然语言同计算机对话的基本特点与主要问题[J].计算机世界月刊,1989(11):12-16.
3《中国实用儿科杂志》关于中英文关键词标引的要求[J].中国实用儿科杂志,2017,32(9):697-697.
4张刚.集合与简易逻辑考点及题型分析[J].广东教育（高中版）,2017,0(9):20-24. 被引量：1
5潘仙张,郭文平,应国良.PageRank在OA系统中的应用[J].计算技术与自动化,2017,36(3):124-128.
6胡静,李璐.基于词频突变的我国阅读推广研究前沿挖掘[J].情报科学,2017,35(10):75-78. 被引量：8
7刘跃伟.启蒙物理教育的关键点[J].都市家教（下半月）,2017,0(9):114-115.
8韩贵金,杨嘉宁.基于改进卷积神经网络的人脸检测算法探析[J].陕西教育（高教版）,2017(8):64-65. 被引量：2
9孔令磊.例析与算法交汇的问题[J].高中生学习（高考冲刺）,2017,0(9):45-47.
10孔令磊.例析与算法交汇的问题[J].高中生学习（试题研究）,2017,0(9):35-37.

电子科技大学学报

2017年第5期

浏览历史

内容加载中请稍等...

基于PageRank的新闻关键词提取算法被引量：15

参考文献4

二级参考文献44

共引文献306

同被引文献109

引证文献15

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于PageRank的新闻关键词提取算法 被引量：15

参考文献4

二级参考文献44

共引文献306

同被引文献109

引证文献15

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于PageRank的新闻关键词提取算法被引量：15