-
题名基于加权二部图的汉日词对齐
被引量:7
- 1
-
-
作者
吴宏林
刘绍明
于戈
-
机构
东北大学信息学院计算机软件与理论研究所
日本富士施乐公司
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期101-106,共6页
-
基金
富士施乐访问研究员计划的资助
-
文摘
高效的自动词对齐技术是词对齐语料库建设的关键所在。当前很多词对齐方法存在以下不足:未登录词问题、灵活翻译问题和全局最优匹配问题。针对以上不足,该文提出加权二部图最大匹配词对齐模型,利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。在汉日词语对齐上的实验表明,该方法在一定程度上解决了以上三点不足,F-Score为80%,优于GIZA++的72%。
-
关键词
计算机应用
中文信息处理
词对齐
二部图
匹配
-
Keywords
computer application
Chinese information processing
word alignment
bipartite graph
matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名面向文本分类的基于最小冗余原则的特征选取
被引量:3
- 2
-
-
作者
张希娟
王会珍
朱靖波
-
机构
东北大学信息学院计算机软件与理论研究所
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期56-60,共5页
-
基金
国家自然科学基金资助项目(60473140)
国家863高科技计划课题资助(2006AA01Z154)
+1 种基金
国家教育部新世纪优秀人才计划项目资助(NCET-05-0287)
国家985工程计划项目资助(985-2-DB-C03)
-
文摘
在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal RedundancyPrinciple,MRP)的特征选取方法。通过考虑不同特征之间的相关性,选择较小冗余度的特征子集。实验结果显示基于最小冗余原则方法能够改善特征选取的效果,提高文本分类的性能。
-
关键词
计算机应用
中文信息处理
条件独立性假设
最小冗余原则
特征选取
文本分类
-
Keywords
computer application
Chinese information processing
conditional independence assumption
minimal redundancy principle
feature selection
text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-