期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种新颖的词聚类算法和可变长统计语言模型 被引量:17
1
作者 陈浪舟 黄泰翼 《计算机学报》 EI CSCD 北大核心 1999年第9期942-948,共7页
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法.(2)基于类的模型为增强对不同领域语料的适应能力往... 基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法.(2)基于类的模型为增强对不同领域语料的适应能力往往牺牲了一部分预测能力.该文的工作就是围绕这两个瓶颈问题展开的.在词的聚类方面,作者基于自然语言词与词之间的相似度,提出了一种词的分层聚类算法.实验证明,该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出了一种新的基于类的可变长模型(Vari-gram )的生成方法,用此方法生成的基于类的Vari-gram 模型预测能力远高于通常的基于类的n 元模型. 展开更多
关键词 聚类 统计语言模型 可变长模型 自然语言处理
下载PDF
基于相似度的词聚类算法和可变长语言模型 被引量:7
2
作者 袁里驰 《小型微型计算机系统》 CSCD 北大核心 2009年第5期912-915,共4页
基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文... 基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.传统的统计聚类方法基于含婪原则,常以语料的似然函数或困惑度(perplexity)作为评价标准.这种传统的聚类方法的主要缺点是聚类速度慢,初值对结果影响大,易陷入局部最优.本文利用互信息定义一种词相似度,基于相似度,提出一种自下而上的分层聚类算法.实验证明,该算法在计算复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出一种新的基于类的可变长语言模型(Vari-gram)的生成方法. 展开更多
关键词 互信息 词相似度 聚类算法 可变语言模型
下载PDF
支持多关键字的P2P搜索研究
3
作者 叶培顺 董建刚 《榆林学院学报》 2009年第2期69-71,共3页
传统的P2P系统是基于单特征词搜索的,且不支持语义,存在一定的局限性。提出了可变长数组模型,解决了P2P系统中多特征词搜索的问题;标识符空间的分割,使相同领域的文档在邻近的节点聚集,提高了搜索速度;本体技术的应用,使P2P系统能够理... 传统的P2P系统是基于单特征词搜索的,且不支持语义,存在一定的局限性。提出了可变长数组模型,解决了P2P系统中多特征词搜索的问题;标识符空间的分割,使相同领域的文档在邻近的节点聚集,提高了搜索速度;本体技术的应用,使P2P系统能够理解搜索请求,有利于查全率的提高。 展开更多
关键词 P2P对等网 语义 多特征词搜索 可变数组模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部