基于语义扩展模型的中文网页关键词抽取被引量：4

Chinese Webpage Keyword Extraction Based on Semantics Extension Model

下载PDF

导出

摘要提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 This paper presents a Chinese Webpage keyword extraction algorithm based on word extension model. It creates an evaluation function to transform term-document matrix by scoring candidate keyword based on its Web structure, part-of-speech, length, TF-IDF value, and uses the word extension model to extend the candidate keywords into key phrases which is based on the n-gram language model. Experimental results show that the proposed algorithm has better performance compared with the traditional keyword extraction algorithms.

作者汪洋帅建梅

机构地区中国科学技术大学信息科学技术学院

出处《计算机工程》 CAS CSCD 2012年第22期163-166,共4页 Computer Engineering

基金国家"863"计划基金资助项目"结合语义的视频服务网站自动发现与分析评估"(2008AA01Z408)

关键词中文网页关键词抽取语义扩展模型邻接变化数聚类算法 n—gram语言模型 Chinese Webpage keyword extraction semantics extension model Accessor Variety（AV） clustering algorithm n-gram language model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Tumey P D. Learning Algorithms for Keyphrase Extraction[J]. Information Retrieval, 2000, 2(4): 303-336.
2Wit-ten 1 H, Paynter G W, Frank E, et al. KEA: Practical Automatic Keyphrase Extraction[C]//Proc. of the 4th ACM Conference on Digital Libraries. Berkeley, USA: ACM Press, 1999: 254-255.
3王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1-3. 被引量：13
4Hulth A. Improved Automatic Keyword Extraction Given More Linguistic Knowledge[C]//Proc. of Conference on Empirical Methods in Natural Language Processing, Stroudsburg, Association for Computational Linguistics. [S. 1.]: ACM Press, 2003: 216-223.
5施洋,张奇,黄萱菁.含有语义特征的网页新闻自动抽取[J].计算机工程,2010,36(7):173-175. 被引量：5
6Stanislaw O, Stefanowski J, Weiss D. Lingo: Search Results Clustering Algorithm Based on Singular Value Decomposition[C]// Proc. of International Conference on Intelligent Information Systems.[S. 1.]: Springer, 2004: 359-368.
7Feng Haodi, Chen Kang, Kit C, et al. Unsupervised Segmentation of Chinese Corpus Using Aecessor Variety[C]//Proc. of the 1st International Joint Conference on Natural Language Processing. Sanya, China: [s. n.], 2005: 694-703.
8中国科学院计算技术研究所.汉语词法分析系统ICTCLAS2009版[EB/OL].http://ictclas.org/,2009-02-19/2009-07-06.

二级参考文献12

1刘华.网页信息抽取及建库系统C#实现[J].计算机工程,2006,32(16):49-51. 被引量：5
2Laender A H F, Ribeiro-Neto B A, Silva A S. A Brief Survey of Web Data Extraction Tools[J]. SIGMOD Record, 2002, 31(2): 84-93.
3Chuang S L, Hsu J Y. Tree-structured Template Generation for Web Pages[C]//Proc. of IEEE/WIC/ACM International Conference on Web Intelligence. [S. 1.]: IEEE Computer Society Press, 2004.
4Zheng Shuyi, Song Ruihua, Wen Jirong. Template-independent News Extraction Based on Visual Consistency[C]//Proc. of AAAI'07. Vancouver, Canada: [s. n.], 2007.
5Eikvil L.Information extraction from World Wide Web-A survey[R].Norwegian Computing Center,1999.
6Nechyba M C,Xu Yang-sheng.Stochastic similarity for validating human control strategy models[J].IEEE Trans on Robotics and Automation,1998,14(3):437-451.
7Wang Ji-ying,Lochovsky F H.Data-rich section extraction from HTML pages[C] //Proceedings of the 3rd International Conference on Web Information Systems Engineering.Singapore:IEEE Computer Society Press,2002:313-322.
8Lerman K,Knoblock C,Minton S.Automatic data extraction from lists and tables in web sources[C] //Proceedings of the Workshop on Advances in Text Extraction and Mining.Menlo Park:AAAI Press,2001:149-181.
9Lin Shianhua,Ho Janming.Discovering informative content blocks from Web document[C] //Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.Edmonton:ACM Press,2002:588-593.
10Stenback J,Hegaret P L,Hors A L.Document Object Model(DOM) Level 2 HTML specification[EB/OL].(2003).http://www.w3.org/TR/2003/REC-DOM-Level-2-HTML-20030109/DOM2-HTML.html# html-ID-1176245063.

共引文献18

1蒋昌金,彭宏,马千里,林正春,王成.受限领域中文问答系统问句分析研究[J].计算机工程与设计,2010,31(11):2588-2591. 被引量：1
2蒋昌金,彭宏,陈建超,马千里,严桂夺.基于组合词和同义词集的关键词提取算法[J].计算机应用研究,2010,27(8):2853-2856. 被引量：18
3于成龙.中文网页信息抽取技术及分类算法研究[J].山东理工大学学报（自然科学版）,2011,25(3):108-110.
4陈钊,李嘉.基于语义的林产品贸易文本信息结构化研究[J].计算机工程,2011,37(20):261-263. 被引量：2
5许珂,蒙祖强,林啓峰.基于语义关联和信息增益的TFIDF改进算法研究[J].计算机应用研究,2012,29(2):557-560. 被引量：8
6陈阳,陈兴蜀,吴麒.基于信息量衰减幅度的网页正文提取[J].计算机工程与设计,2012,33(7):2555-2560. 被引量：1
7段晓丽,王宇,谷静,刘玮楠.基于正文特征及网页结构的主题网页信息抽取[J].计算机工程与应用,2012,48(30):151-156. 被引量：10
8伍杰华,倪振声,陈有青.一种基于逆序匹配重复模式的主题信息提取方法[J].计算机应用与软件,2013,30(4):88-91.
9周建,汤进,罗斌.基于DOM结构树的网页正文信息分段方法[J].计算机与现代化,2013(10):229-232. 被引量：2
10伍杰华,倪振声.改进多分类器集成AdaBoost算法的Web主题分类[J].计算机应用与软件,2013,30(11):64-67. 被引量：2

同被引文献44

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
3姜吉发.一种跨语句汉语事件信息抽取方法[J].计算机工程,2005,31(2):27-29. 被引量：12
4王健,陈剑云,张冬波.基于JAVA多线程的IEC60870—5—101规约分层设计[J].科技情报开发与经济,2005,15(7):249-251. 被引量：2
5刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
6Gonnet G, Baeza-Yates R, Snider T. New indices for text: PAT trees and PAT arrays[ M ]. Prentice Hall: New Jersey, 1992:79-96.
7Tumey P D. Learning to Extract Key Phrases from Text[R]. Cana- da: National Research Council, NRC Technical Report ERB21057, 1999.
8NLM. Fact Sheet: Medical Subject Headings ( MeSH ) [ EB/ OL]. [2013-07-11] http://www, nlm. nih. gov/pubs/factshe. ets/mesh, html.
9Elsevier. Embase: Indexing with Life Science Thesaurus Emtree [ EB/OL]. [ 2013-07-11 ]. http ://www. elsevier, com/online- tools/embase/emtree.
10NLM. The Unified Medical Language System (UMLS) [ EB/OL]. [ 2013-07-11 ]. http ://www . him. nih. gov/research/umls/new _users/online_learning/OVR_001. html.

引证文献4

1何晓阳,张精理,丁婷.医学新闻关键词自动提取策略[J].中华医学图书情报杂志,2014,23(4):13-17. 被引量：2
2褚衍杰,魏强,李云照.基于关键词语义与作用域扩展的事件检测[J].计算机工程,2014,40(8):273-276. 被引量：2
3胡亮,夏磊,李伟.基于改进TF-IDF算法的关键词抽取系统[J].厦门理工学院学报,2017,25(5):67-72. 被引量：2
4陈硕,殷锋,袁平.面向工业互联网资讯的中文关键词抽取[J].现代计算机,2020,26(3):22-26.

二级引证文献6

1张精理,何晓阳,丁婷.基于词频统计法的医学新闻自动受控标引[J].中华医学图书情报杂志,2014,23(8):7-10. 被引量：1
2冯戈利.跨文档事件检测算法[J].机械设计与制造工程,2015,44(1):6-10. 被引量：1
3王冰玉,吴振宇,沈苏彬,陈佳颖.社交媒体事件检测研究综述[J].计算机技术与发展,2018,28(9):105-111. 被引量：1
4张杨,张精理,何晓阳.互联网军事医学信息资源采集与鉴选策略研究[J].中华医学图书情报杂志,2018,27(4):62-66.
5汪海鹏,郑扬飞.基于特征值的律师推荐算法及改进方案[J].计算机与现代化,2018(10):18-21.
6伍哲,杨芳.时间加权的TF-LDA学术文献摘要主题分析[J].计算机技术与发展,2020,30(1):194-200. 被引量：4

1孙兴东,李爱平,李树栋.一种基于聚类的微博关键词提取方法的研究与实现[J].信息网络安全,2014(12):27-31. 被引量：9
2陶志荣.N—gram语言模型的Katz平滑技术[J].电子计算机,2002(2):32-35. 被引量：1
3李念伟,王宝鹏,汪厚祥.一种信息过滤系统中语义扩展模型的研究[J].计算机与数字工程,2008,36(5):74-77. 被引量：1
4卢先宁,高泽华,高峰.Web日志挖掘中的会话识别技术研究[J].数据通信,2012(4):19-21.
5江铭虎,朱小燕,袁保宗.一种适应域的汉语N-gram语言模型平滑算法[J].清华大学学报（自然科学版）,1999,39(9):99-102. 被引量：9
6毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16
7许爱琴,王梦洁,刘永坚,王卫华.一种新的生成候选关键词集的方法[J].武汉理工大学学报（信息与管理工程版）,2013,35(6):816-819.
8冯晓波,李蕾,刘冬雪.中文问答系统中问题理解的研究[J].中国电子商情（通信市场）,2010(3):142-146.
9叶得学.中文问答系统中问题理解的算法研究[J].数字技术与应用,2012,30(12):101-102.
10娄玉娟,徐慧.中文文本关键词抽取方法的研究[J].企业技术开发（下半月）,2011(4):106-107. 被引量：1

计算机工程

2012年第22期

浏览历史

内容加载中请稍等...

基于语义扩展模型的中文网页关键词抽取被引量：4

参考文献8

二级参考文献12

共引文献18

同被引文献44

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于语义扩展模型的中文网页关键词抽取 被引量：4

参考文献8

二级参考文献12

共引文献18

同被引文献44

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于语义扩展模型的中文网页关键词抽取被引量：4