-
题名一种新颖的词聚类算法和可变长统计语言模型
被引量:17
- 1
-
-
作者
陈浪舟
黄泰翼
-
机构
中国科学院自动化研究所
-
出处
《计算机学报》
EI
CSCD
北大核心
1999年第9期942-948,共7页
-
文摘
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法.(2)基于类的模型为增强对不同领域语料的适应能力往往牺牲了一部分预测能力.该文的工作就是围绕这两个瓶颈问题展开的.在词的聚类方面,作者基于自然语言词与词之间的相似度,提出了一种词的分层聚类算法.实验证明,该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出了一种新的基于类的可变长模型(Vari-gram )的生成方法,用此方法生成的基于类的Vari-gram 模型预测能力远高于通常的基于类的n 元模型.
-
关键词
词
聚类
统计语言模型
可变长模型
自然语言处理
-
Keywords
Word clustering, statistical language model, vari gram.
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于相似度的词聚类算法和可变长语言模型
被引量:7
- 2
-
-
作者
袁里驰
-
机构
江西财经大学信息学院数据与知识工程江西省重点实验室
中南大学信息科学与工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2009年第5期912-915,共4页
-
基金
国家自然科学基金项目(60763001
60663007)资助
中南大学博士后科学基金项目(2007)资助
-
文摘
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义一种词相似度,基于相似度,提出一种自下而上的分层聚类算法.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出一种新的基于类的可变长语言模型(Vari-gram)的生成方法.
-
关键词
互信息
词相似度
聚类算法
可变长语言模型
-
Keywords
mutual information
word similarity
clustering algorithm
vari-gram language model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名支持多关键字的P2P搜索研究
- 3
-
-
作者
叶培顺
董建刚
-
机构
榆林学院计算机与网络工程系
-
出处
《榆林学院学报》
2009年第2期69-71,共3页
-
文摘
传统的P2P系统是基于单特征词搜索的,且不支持语义,存在一定的局限性。提出了可变长数组模型,解决了P2P系统中多特征词搜索的问题;标识符空间的分割,使相同领域的文档在邻近的节点聚集,提高了搜索速度;本体技术的应用,使P2P系统能够理解搜索请求,有利于查全率的提高。
-
关键词
P2P对等网
语义
多特征词搜索
可变长数组模型
-
Keywords
peer to peer network
semantics
multi - keywords search
scalable array model
-
分类号
TP301.2
[自动化与计算机技术—计算机系统结构]
-