-
题名一种新颖的词聚类算法和可变长统计语言模型
被引量:17
- 1
-
-
作者
陈浪舟
黄泰翼
-
机构
中国科学院自动化研究所
-
出处
《计算机学报》
EI
CSCD
北大核心
1999年第9期942-948,共7页
-
文摘
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法.(2)基于类的模型为增强对不同领域语料的适应能力往往牺牲了一部分预测能力.该文的工作就是围绕这两个瓶颈问题展开的.在词的聚类方面,作者基于自然语言词与词之间的相似度,提出了一种词的分层聚类算法.实验证明,该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出了一种新的基于类的可变长模型(Vari-gram )的生成方法,用此方法生成的基于类的Vari-gram 模型预测能力远高于通常的基于类的n 元模型.
-
关键词
词
聚类
统计语言模型
可变长模型
自然语言处理
-
Keywords
Word clustering, statistical language model, vari gram.
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于模糊训练集的领域相关统计语言模型
- 2
-
-
作者
陈浪舟
黄泰翼
nlpr.ia.ac.cn
-
机构
中国科学院自动化研究所
-
出处
《软件学报》
EI
CSCD
北大核心
2000年第7期971-978,共8页
-
基金
国家自然科学基金!(No.69835003)资助
-
文摘
统计语言模型在语音识别中具有重要作用 .对于特定领域的识别系统来说 ,主题相关的语言模型效果远远优于领域无关的语言模型 .传统方法在建立领域相关的语言模型时通常会遇到两个问题 ,一个是领域相关的语料不像普通语料那样充分 ,另一个是一篇特定的文章往往与好几个主题相关 ,而在模型的训练过程中 ,这种现象没有得到充分的考虑 .为解决这两个问题 ,提出了一种新的领域相关训练语料的组织方法——基于模糊训练集的组织方法 ,领域相关的语言模型就建立在模糊训练集的基础上 .同时 ,为了增强模型的预测能力 ,将自组织学习引入到模型的训练过程中 。
-
关键词
语音识别
统计语言模型
自组织学习
模糊训练集
-
Keywords
Speech recognition, statistical language model, fuzzy, self organized learning.
-
分类号
TN912.34
[电子电信—通信与信息系统]
-
-
题名一种新颖的自然语言主题转换精确定位方法
- 3
-
-
作者
陈浪舟
黄泰翼
-
机构
中国科学院自动化研究所模式识别实验室
-
出处
《软件学报》
EI
CSCD
北大核心
1999年第12期1246-1252,共7页
-
基金
国家自然科学基金
-
文摘
自然语言的主题转换是自然语言理解的一个重要线索 .语言处理通常是针对不同的主题有不同的数据库和处理方法 .因此 ,如何找到文本中的主题转换点是语言处理中的一个重要内容 .该技术在语言理解、文本自动索引以及语言模型的建立等方面都有重要意义 .该文以文本主题转换时的词汇突变为表征 ,提出和定义了反映词汇突变的 4个参数 ,将这 4个参数作为输入 ,利用 BP网作为判决工具 ,建立了一个在不同尺度下文本词汇变化的层次结构模型 ,实现了一种精确的文本主题转换点的定位方法 ,其定位精度在一个句子左右 .
-
关键词
自然语言处理
文本切分
BP算法
主题转换
-
Keywords
Natural language processing, text segmenting, text index and filter, BP algorithm.
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-