摘要
评估函数对已定义类别以外的语料区分度相对较低的问题出发,结合常用的停用词表功能,提出了基于与统计量相关的相对词频作评估函数的改进模型。该模型结合了现代汉语词频统计结果,使用相对词频选择特征词,较好地区分了特定类别与类别外文本。实验结果验证了这种方法的可行性,并且取得了较好的分类效果。
Brings forward an improved model of evaluation function based on relative word frequency,which is promised to resolve above problem.This model is combined with the modern Chinese language word frequency statistic achievements,extract feature words based on relative frequency,which results to better!distinction degree between the defined classes and undefined classes.At last,the experiment has proved the feasibility and effect of this method.
出处
《计算机应用研究》
CSCD
北大核心
2005年第4期23-26,共4页
Application Research of Computers
基金
国家"863"计划资助项目(2001AA114210 14)
关键词
特征抽取
特征向量
评估函数
相对词频
Text Feature Extraction
Feature Vector
Evaluation Function
Relative Word frequency