摘要
提出一种基于量化同义词关系的改进的TF-IDF文本特征词提取方法.该方法将在同一文本中出现的某个词的同义词做为一个集合,在传统TF-IDF方法计算的词语权重的基础上对同义词集合中的词语及其相关词进行权重调整,通过相似度对同义词集合中的词语进行了合并加权.实验证明该方法对文本中的同义词及其相关词进行了有效处理,提高了文本特征词提取的准确性.
A method of improved feature extraction based on synonymous was proposed collected synonyms in the text as a set, adjustment the weights of synonyms in the set and based on TF-IDF,and combined synonyms through the similarity. The experimental results d new method improves the accuracy of feature extraction.
出处
《河北大学学报(自然科学版)》
CAS
北大核心
2010年第1期97-101,共5页
Journal of Hebei University(Natural Science Edition)
基金
国家博士后科学基金资助项目(20070420700)
关键词
特征提取
TF—IDF同义词
知网
同现概率
feature extraction
TF-IDF synonymous+ hownet co-occurrence The method related words splay that the