一种新颖的词聚类算法和可变长统计语言模型被引量：17

A NOVEL WORD CLUSTERING ALGORITHM AND VARI GRAM LANGUAGE MODEL

下载PDF

导出

摘要基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法．但该方法的两个主要瓶颈在于：（１）词的聚类．目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法．（２）基于类的模型为增强对不同领域语料的适应能力往往牺牲了一部分预测能力．该文的工作就是围绕这两个瓶颈问题展开的．在词的聚类方面，作者基于自然语言词与词之间的相似度，提出了一种词的分层聚类算法．实验证明，该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进．在提高预测能力方面，提出了一种新的基于类的可变长模型（Ｖａｒｉ－ｇｒａｍ）的生成方法，用此方法生成的基于类的Ｖａｒｉ－ｇｒａｍ模型预测能力远高于通常的基于类的ｎ元模型． Class based statistic language model is an important method to solve the problem of sparse data. But there are two bottlenecks about this model: (1) The problem of word clustring, it is hard to find a suitable clustering method that has good performance and not large amount of computation. (2) Class based method always lose some prediction ability to adapt the text of different domain. The authors try to solve above problems in this paper. This paper presents a hierarchical word clustering algorithm based on the similarity between words in nature language. Experiments show that this method is better than conventional greedy clustering method in speed and performance. At the same time, this paper presents a new method to create the vari gram model, and gets a class based vari gram model that performance is much better than traditional class based n gram model.

作者陈浪舟黄泰翼

机构地区中国科学院自动化研究所

出处《计算机学报》 EI CSCD 北大核心 1999年第9期942-948,共7页 Chinese Journal of Computers

关键词词聚类统计语言模型可变长模型自然语言处理 Word clustering, statistical language model, vari gram.

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1白硕，语言学知识的计算机辅助发现，1995年
2陈群秀，计算语言学研究与应用，1994年
3朱德熙，语法讲义，1982年

同被引文献148

1孙静,朱杰,徐向华.一种新的中文词自动聚类算法[J].上海交通大学学报,2003,37(z1):139-142. 被引量：2
2袁里驰.Improved head-driven statistical models for natural language parsing[J].Journal of Central South University,2013,20(10):2747-2752. 被引量：1
3陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
4解本政.TCBPL:一种高效文本分类新方法[J].计算机工程,2005,31(23):6-7. 被引量：2
5胡和平,曾庆锐,路松峰.中文词聚类研究[J].计算机工程与科学,2006,28(1):122-124. 被引量：9
6朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
7樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
8田津,李敏强,陈富赞.基于三阶段RBFNN学习算法的复杂样本分类研究[J].系统工程与电子技术,2006,28(1):114-118. 被引量：2
9庄新田,刘洋.中国股票市场流动性实证研究[J].南方经济,2006,35(2):71-79. 被引量：5
10张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206. 被引量：10

引证文献17

1吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
2陈史政,章权兵.关于词聚类中二元词聚类的一些探讨[J].福建广播电视大学学报,2007(6):76-78.
3郑小慎,何丕廉,陈治纲,任大同,吴克敏.基于凝聚点的文本动态聚类分析[J].微型机与应用,2004,23(8):58-60.
4胡和平,曾庆锐,路松峰.中文词聚类研究[J].计算机工程与科学,2006,28(1):122-124. 被引量：9
5姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
6党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量：3
7赵军,胡栓柱,樊兴华.一种新的词语相似度计算方法[J].重庆邮电大学学报（自然科学版）,2009,21(4):528-532. 被引量：10
8郭怀恩,朱礼军,徐硕.词聚类技术研究综述[J].数字图书馆论坛,2010(5):15-19. 被引量：2
9彭学仕,孙春华.面向倾向性分析的基于词聚类的基准词选择方法[J].计算机应用研究,2011,28(1):114-116. 被引量：7
10孟海东,刘小荣.基于聚类分析的图模型文档分类[J].计算机应用与软件,2012,29(1):171-174. 被引量：1

二级引证文献88

1余传明,李浩男,王曼怡,黄婷婷,安璐.基于深度学习的知识表示研究:网络视角[J].数据分析与知识发现,2020,4(1):63-75.
2马进,杨一帆,陈文亮.基于远程监督的人物属性抽取研究[J].中文信息学报,2020(6):64-72. 被引量：11
3邹志文,柯青.基于向量空间模型的主动推送系统设计与优化[J].现代图书情报技术,2005(7):42-45. 被引量：6
4包金龙.基于向量空间模型的信息检索系统的设计[J].情报杂志,2005,24(7):44-45. 被引量：16
5王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
6张婷慧,耿焕同,蔡庆生.一种改进的VSM及其在文本自动分类中的应用[J].微电子学与计算机,2005,22(12):24-27. 被引量：3
7邹志文.向量空间模型在主动信息服务系统中的应用[J].情报杂志,2005,24(12):79-80.
8王曰芬,宋爽,苗露.共现分析在知识服务中的应用研究[J].现代图书情报技术,2006(4):29-34. 被引量：59
9姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
10潘伟,郑刚.基于聚类模式的多数据源匹配的实现[J].计算机技术与发展,2007,17(1):76-78.

1陈永强,刘惠颖.一种基于密度的数据流聚类分析算法[J].科技创新导报,2009,6(22):20-20.
2苏进,张佑生.一种分层聚类模型及其在电信行业的应用[J].计算机工程,2005,31(22):110-112.
3钱树人.专用领域语料的分析及其理解[J].小型微型计算机系统,1993,14(5):20-24.
4吴登国,李晓明.模糊参数自整定PID控制器的仿真研究[J].机电技术,2012,35(4):9-12. 被引量：3
5崔雅静,杜艳丽,王晓雷.自适应模糊PID控制器的设计[J].控制工程,2008,15(S2):128-129. 被引量：26
6杨益兴,崔大连,周爱军.模糊自适应PID控制器及Simulink仿真实现[J].舰船电子工程,2010,30(4):127-130. 被引量：50
7吴登国,李晓明.模糊参数自整定PID控制器的仿真研究[J].电气传动自动化,2013,35(3):7-10. 被引量：6
8刘卓,徐斌.分层聚类算法在文本挖掘中的应用[J].网络安全技术与应用,2010(7):61-62.
9袁小群,方卿,尹浩.一种新的服务器部署及其关键技术[J].小型微型计算机系统,2012,33(9):1987-1991.
10徐仙伟,杨雁莹,曹霁.一种改进的粒子群优化算法[J].长春工程学院学报（自然科学版）,2015,16(4):100-103.

计算机学报

1999年第9期

浏览历史

内容加载中请稍等...

一种新颖的词聚类算法和可变长统计语言模型被引量：17

参考文献3

同被引文献148

引证文献17

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

一种新颖的词聚类算法和可变长统计语言模型 被引量：17

参考文献3

同被引文献148

引证文献17

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

一种新颖的词聚类算法和可变长统计语言模型被引量：17