摘要
特征降维是文本分类的关键技术之一,包括特征选择与特征抽取两类,其中特征选择按特征子集获取范围、特征子集搜索策略、特征子集评价策略等方式进行不同划分。归纳出当前特征选择与特征抽取所用的常用方法,分析各种方法的原理、指出每种方法的优势与不足,总结出相应改进算法。
Feature dimension reduction is one of the key technology for text classification. It includes feature selection and feature extraction,and feature selection is classified into three cases according to obtainning feature subset area,obtaining feature subset strategy, feature subset valuation criterion. Feature selection and feature extraction methods' advantages and disadvantages are elaborated respectrvely, and the improved algorithm are concluded.
出处
《图书情报工作》
CSSCI
北大核心
2011年第9期109-113,共5页
Library and Information Service
基金
国家社会科学基金项目"自动文本分类技术研究"(项目编号:08CTQ003)
河北北方学院自然科学青年基金项目"一种基于生成树文档聚类的KNN分类算法"(项目编号:Q2010008)研究成果之一
关键词
文本分类
特征降维
特征选择
特征抽取
text classification feature dimension reduction feature selection feature extraction