摘要
提出了一种基于句子级对齐的双语语料库的英汉词对齐方法 .它建立在句对的集合表示形式的基础上 ,通过最小求交模型实现词对齐 .使用倒排索引表和集合运算实现高效的最小求交算法 .在对齐过程中引入高频干扰词表以提高召回率 .实验结果表明 。
Proposed a method of word alignment which is based on sentence level aligned bilingual corpus. This work is based on the set form of sentence pairs. Using MIM(minimum intersection model) to align words. This model includes an algorithm based on inverted index table and set operations. Using HFDTable (high frequency disturbance word table) to improve recall. The results of experiments indicate that this method rivals the word alignment based on mutual information and bilingual lexicon.
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第7期1132-1134,共3页
Journal of Chinese Computer Systems
基金
国家教育部科学技术研究重点项目( 10 40 65 )资助
国家自然科学基金
微软亚洲研究院项目(60 2 0 3 0 19)资助
关键词
自然语言处理
双语语料库
词对齐
nature language processing
bilingual corpora
word alignment