-
题名基于互信息最大化的特征选择算法及应用
被引量:35
- 1
-
-
作者
唐亮
段建国
许洪波
梁玲
-
机构
解放军信息工程大学信息工程学院
中国科学院计算技术研究所网络科学技术部
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第13期130-133,共4页
-
基金
国家重点基础研究发展规划(973)(the National Grand Fundamental Research 973 Program of China under Grant No.2004CB318109,No.2007CB311100)
-
文摘
该文以互信息最大化原则为指导,经过推导和分析后提出了一种基于信息论模型的新的特征选择算法,称之为基于互信息最大化的特征选择算法(MaxMI)。基本思想就是特征选择后,应当尽可能多地保留关于类别的信息。该算法与传统的信息增益、互信息和交叉熵在表达形式上具有一定的相似性,但是并不完全相同。从实验上验证了基于互信息最大化的特征选择算法优于其它三种算法。
-
关键词
文本分类
特征选择
交叉熵
信息增益
互信息最大化
-
Keywords
text classification
feature selection
cross-entropy
information gain
mutual information maximization
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于信息论的文本分类模型
被引量:1
- 2
-
-
作者
唐亮
段建国
许洪波
梁玲
-
机构
解放军信息工程大学信息工程学院
中国科学院计算技术研究所网络科学技术部
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第24期6312-6315,共4页
-
基金
国家973重点基础研究发展计划基金项目(2004CB318109、2007CB311100)
-
文摘
从信息论的角度,提出了一种新的文本分类模型。该模型以文本提供的关于类别的信息作为分类依据,从另一个角度来思考文本分类问题。从实用性的角度来看,该模型与传统的朴素贝叶斯模型和基于KL距离的中心向量法具有一定的关系,并给出了证明。根据广义信息论的基本概念,又对此模型进行推广,提出了特征权重的概念,可以通过修正特征权重来修正文本分类模型,为成功解决文本分类模型的修正问题提供了理论基础。
-
关键词
文本分类
信息论
广义信息论
互信息
信息熵
特征权重
-
Keywords
text classification
information theory
general information
theory mutual information
information entropy
feature weight
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-