期刊文献+

一种基于同义词的中文关键词提取方法 被引量:2

Automatic Chinese Keywords Extraction Based on Synonyms
下载PDF
导出
摘要 关键词在自然语言处理的各个领域有着十分重要的意义。对于中文自然语言处理,一词多义和多词一义问题始终是困扰研究人员的一个重大难题。传统的一些基于统计的方法,诸如KEA只是机械地统计了词频,而没有考虑词之间的关系。文中提出了一种基于同义词的中文关键词提取方法 SKEA,并建立一阶隐马尔可夫模型进行词义消歧,将文本从稀疏的词空间映射到语义空间,从而实现了文本的降维。同时改进了KEA的位置权重公式,并提出新的关键词特征选取项。最后对SKEA方法和KEA方法进行比较实验,证明SKEA是一种更优秀的中文关键词提取方法。 Keywords play a significant role in various fields of natural language processing.For Chinese natural language processing,the polysemy and synonym are a major problem that troubles researchers.The traditional statistics-based approach,such as KEA,simply calculates the frequencies of appearance,without taking into account the relationships between the words.In this paper,a synonym Chinese keyword extraction method SKEA with word meaning disambiguation using the hidden Markov model is proposed.This method projects maps from the vector space into the semantic space,which achieves the dimensionality reduction of texts.At the same time,it improves the the KEA position weight formula,and proposes a new keyword feature selection criteriion.Finally,this paper compares SKEA method and KEA method using the multiple controlled experiments and proves that SKEA is a better Chinese keyword extraction method.
出处 《江南大学学报(自然科学版)》 CAS 2013年第5期620-625,共6页 Joural of Jiangnan University (Natural Science Edition) 
关键词 同义词 关键词提取 自然语言处理 隐马尔可夫模型 synonym keyword extraction natural language processing hidden Markov model
  • 相关文献

参考文献9

二级参考文献67

  • 1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量:93
  • 2郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量:41
  • 3唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报(信息科学版),2005,23(5):535-540. 被引量:16
  • 4索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量:88
  • 5李娟子.汉语词义消歧方法研究:博士论文[M].北京:清华大学,1999..
  • 6Jilin Chen, Benyu Zhang, Dou Shen, Qiang Yang. Zheng Chen. Diverse Topic Phrase Extraction from Text Collection. Data Mining [C]//ICDM apos: 06. Sixth International Conference on Volume, Issue, Digital Object Identifier. 2006.
  • 7Blaz Fortuna, Dunja Mladenic, Marko Grobelnik . Semi-Automatic Construction of Topic Ontology[C]// ESWC 2005.
  • 8Khaled M. Hammouda, Diego N. Matute, and Mohamed S. Kamel. CorePhrase: Keyphrase Extraction for Document Clustering[C]//Machine Learning and Data Mining in Pattern Recognition. 2005: 265-274.
  • 9Neto, J., Santos, A., Kaestner, C., Freitas, A. Document clustering and text summarization [C]// Proc. 4th International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000), London, UK: 2000:41-55.
  • 10Salton, G. (1991): Developments in Automatic Text Retrieval[J]. Science, Vol 253, 974-979.

共引文献151

同被引文献17

引证文献2

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部