期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于无监督学习的专业领域分词歧义消解方法 被引量:7
1
作者 修驰 宋柔 《计算机应用》 CSCD 北大核心 2013年第3期780-783,共4页
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵... 中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。 展开更多
关键词 专业领域分词 分词歧义 字符串频次 互信息 边界熵
下载PDF
基于“固结词串”实例的中文分词研究 被引量:5
2
作者 修驰 宋柔 《中文信息学报》 CSCD 北大核心 2012年第3期59-64,共6页
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基... 近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。 展开更多
关键词 中文分词 CRF 固结词串 分词歧义 机器学习
下载PDF
语料库自然标注信息与中文分词应用研究(英文) 被引量:2
3
作者 饶高琦 修驰 荀恩东 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期140-146,共7页
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。... 以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。 展开更多
关键词 自然标注信息 中文分词 词语抽取 大规模语料库
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部