基于迭代算法的新词识别被引量：7

New Words Identification Based on Iterative Algorithm

下载PDF

导出

摘要新词识别是中文信息处理的重要基础,但中文字符极强的构词能力给新词检测带来较大困难。受对偶原理的启发,提出一种基于迭代算法的新词识别算法。对目标语料进行分词和词性标注,通过两遍扫描进行字符串统计并提取重复模式。结合词语结构的特征,迭代使用重复模式互信息、左(右)熵,左(右)邻右(左)平均熵等特征进行新词识别,获得候选新词列表。利用中文词语搭配库对候选新词列表进行最后一次过滤得到最终新词列表。实验结果表明,利用该方法进行新词识别,P@10值达到100%,P@100值提高至90%,左(右)邻右(左)平均熵可在一定程度上提高新词识别的准确率。 New words identification is an important foundation for Chinese information processing. However, the energetic word building ability of Chinese makes it difficult to automatically identify new words. Inspired by the duality principle, a new word identification algorithm based on iterative algorithm is proposed. The target corpus is analyzed for segmentation and part-of-speech tagging. The repetitive patterns are extracted after statistic of string frequency through scanning twice. Combining with word structure＇s characteristics, the candidate list of new words is obtained through iteratively using characteristics of repetitive patterns such as Mutual Information（MI）, the left（right） entropy, the right（left） average entropy of the left（right） neighbor. The final list of new words is obtained by filtering the candidate list with the help of the library of Chinese words collocation. With this method for identification of new words, results show that the value of P@10 reaches 100%, and that of P@100 increases to 90%, the use of the right（left） average entropy of the left（right） neighbor can raise the accuracy of new words identification.

作者赵小宝张华平

机构地区北京理工大学计算机学院

出处《计算机工程》 CAS CSCD 2014年第7期154-158,164,共6页 Computer Engineering

基金国家自然科学基金资助项目(61272362)

关键词对偶原理新词识别迭代算法信息熵重复模式中文词语搭配库 duality principle new words identification iterative algorithm information entropy repetitive pattern the library of Chinesewords collocation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1朱德熙.语法讲义[M]北京:商务印书馆,2004.
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3李钝,屠卫,石磊,陶永才.基于上下文感知的中文新词识别算法[J].计算机工程与设计,2012,33(10):4022-4027. 被引量：6
4郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报（自然科学版）,2002,25(2):115-119. 被引量：56
5邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
6张海军,栾静,李勇,齐向伟.基于统计学习框架的中文新词检测方法[J].计算机科学,2012,39(2):232-235. 被引量：10
7Sun Xiao,Huang Degen,Song Haiyu. Chinese New Word Identification:A Latent Discriminative Model with Global Features[J].Journal of Computer Science and Technology,2011,(01):14-24.
8Sun Xu,Wang Houfeng,Li Wenjie. Association for Computa-tional Linguistics[A].Associ-ation for Computational Linguistics,2012.123-128.
9Liu Zhiyuan,Zheng Yabin,Xie Lixing. User Behaviors in Related Word Retrieval and New Word Detection:A Collaborative Perspective[J].ACM Transactions on Asian Language Information Processing,2011,(04):20-27.
10林自芳,蒋秀凤.基于改进位置成词概率的新词识别[J].福州大学学报（自然科学版）,2011,39(1):43-48. 被引量：3

二级参考文献61

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
3罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
4贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
5郑家恒李文花.新词语自动识别方法研究.自然语言理解与机器翻译[M].北京:清华大学出版社,2001..
6陆志苇.现代汉语构词法（修订本）[M].北京:中华书局,1975..
7H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
8Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
9S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
10J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002

共引文献301

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：9
3陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
4尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
7黄东平,田芳.BBS信息过滤技术研究[J].长江大学学报（自然科学版）,2004,1(1):16-18. 被引量：4
8李彦,贾爱军,占向辉,李翔龙.面向创新设计的多层次Web信息检索研究[J].工程设计学报,2005,12(3):129-133. 被引量：1
9任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
10俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：159

同被引文献57

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2宋登汉,詹萌.中外八大OPAC系统的比较与分析[J].图书情报知识,2005,22(3):44-46. 被引量：15
3向晓雯,史晓东,曾华琳.一个统计与规则相结合的中文命名实体识别系统[J].计算机应用,2005,25(10):2404-2406. 被引量：37
4刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
6门淑华,王志琦.在校大学生图书阅读兴趣的特点研究[J].中国科技信息,2008(1):133-133. 被引量：4
7LAFFERTY J, McCALLUM A, PEREIRA F. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// ICML 2001: Proceedings of the 2001 International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers, 2001: 282-289.
8KUDO T. CRF++: yet another CRF toolkit [EB/OL]. [2014-12-01]. http://crfpp.googlecode.com/svn/trunk/doc/index.html.
9LIU D, NOCEDAL J. On the limited memory BFGS method for large scale optimization [EB/OL]. [2014-12-07]. http://users.iems.northwestern.edu/-nocedal/PDFfiles/limited-memory.pdf.
10冯元勇,孙乐,李文波,张大鲲.基于单字提示特征的中文命名实体识别快速算法[J].中文信息学报,2008,22(1):104-110. 被引量：24

引证文献7

1周详,李少波,杨观赐.服装类商品属性实体识别[J].计算机应用,2015,35(7):1945-1949. 被引量：2
2雷一鸣,刘勇,霍华.面向网络语言基于微博语料的新词发现方法[J].计算机工程与设计,2017,38(3):789-794. 被引量：11
3丁祥武,张东辉.基于Spark的中文新词提取[J].计算机工程与设计,2017,38(11):3185-3191. 被引量：1
4和志强,王丽鹏,张鹏云.基于词共现的关键词提取算法研究与改进[J].电子技术与软件工程,2018(1):144-146. 被引量：1
5刘申凯,周霁婷,朱永华,高洪皓.融合知识图谱和ESA方法的网络新词识别[J].计算机技术与发展,2019,29(3):12-17. 被引量：2
6张恒,章成志,周清清.高校图书馆用户群体的阅读偏好--对“热门图书”数据的考察[J].图书馆论坛,2020,40(5):132-141. 被引量：6
7嵇友浪,朱君,顾晶晶,李辰刚.统计融合序列标注的电力客服术语识别[J].电子设计工程,2021,29(2):29-33. 被引量：1

二级引证文献24

1王欣.一种基于多字互信息与邻接熵的改进新词合成算法[J].现代计算机（中旬刊）,2018(4):7-11. 被引量：5
2闻永毅,王治梅,杨婷.中医文献语料库自动分词中的新词发现研究[J].西部中医药,2018,31(9):71-74.
3邹志文,朱红泽,李玲,张大秀.基于改进位置成词概率的微博新词发现算法[J].电脑知识与技术,2019,15(1):1-2.
4刘伟童,刘培玉,刘文锋,李娜娜.基于互信息和邻接熵的新词发现算法[J].计算机应用研究,2019,36(5):1293-1296. 被引量：29
5黄文明,杨柳青青,任冲.结合信息量和深度学习的领域新词发现[J].计算机工程与设计,2019,40(7):1903-1907. 被引量：6
6李冬梅,檀稳.植物属性文本的命名实体识别方法研究[J].计算机科学与探索,2019,13(12):2085-2093. 被引量：7
7柳文婷.基于改进互信息的微博新情感词提取[J].延边大学学报（自然科学版）,2019,45(4):349-355. 被引量：2
8郭理,张恒旭,王嘉岐,秦怀斌.基于Trie树的词语左右熵和互信息新词发现算法[J].现代电子技术,2020,43(6):65-69. 被引量：12
9刘彦伯,温雪岩,徐克生,于鸣.基于Boosting框架的推荐系统架构与优化[J].现代电子技术,2020,43(8):19-21. 被引量：1
10刘家祝,郭强,吴碧伟,曾明勇.基于子图相交的社交账号与知识图谱实体对齐[J].计算机技术与发展,2020,30(5):10-15. 被引量：1

1唐功友,李娟,张勇.时滞系统基于对偶原理的故障诊断[J].控制理论与应用,2008,25(5):966-969. 被引量：4
2龚德恩.关于离散线性系统能决定性的判别[J].控制理论与应用,1999,16(4):594-595.
3郭倩.“替换”功能巧应用[J].广东电脑与电讯,2003(09M):59-60.
4智慧来.基于概念格的非数值型数据聚类稳定性分析[J].计算机科学,2014,41(10):244-248. 被引量：1
5蔡良伟,林春漪.一种新的求解函数优化问题的两级遗传算法[J].系统工程与电子技术,2003,25(9):1169-1172. 被引量：1
6邓高寿,潘宏侠.灌渠自动控制最优状态观测器的设计方法研究[J].机械管理开发,2006,21(1):29-30.
7齐琦,蒋加伏,何伟.基于支持向量聚类的多窗口图像去噪方法[J].计算机工程与应用,2008,44(36):195-197.
8彭涛,左万利,赫枫龄,张长利.基于粒子群优化算法的网页分类技术[J].计算机研究与发展,2006,43(z3):33-38. 被引量：2
9黄晨量,高建华.基于场景驱动方法的跟踪依赖关系的研究[J].计算机工程,2005,31(19):102-104. 被引量：1
10陈文德.离散事件动态系统的能观性[J].控制与决策,1997,12(3):198-202. 被引量：5

计算机工程

2014年第7期

浏览历史

内容加载中请稍等...

基于迭代算法的新词识别被引量：7

参考文献12

二级参考文献61

共引文献301

同被引文献57

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于迭代算法的新词识别 被引量：7

参考文献12

二级参考文献61

共引文献301

同被引文献57

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于迭代算法的新词识别被引量：7