期刊导航
期刊开放获取
重庆大学
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于无监督学习的专业领域分词歧义消解方法
被引量:
7
1
作者
修驰
宋柔
《计算机应用》
CSCD
北大核心
2013年第3期780-783,共4页
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵...
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
展开更多
关键词
专业领域分词
分词歧义
字符串频次
互信息
边界熵
下载PDF
职称材料
基于“固结词串”实例的中文分词研究
被引量:
5
2
作者
修驰
宋柔
《中文信息学报》
CSCD
北大核心
2012年第3期59-64,共6页
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基...
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。
展开更多
关键词
中文分词
CRF
固结词串
分词歧义
机器学习
下载PDF
职称材料
语料库自然标注信息与中文分词应用研究(英文)
被引量:
2
3
作者
饶高琦
修驰
荀恩东
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2013年第1期140-146,共7页
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。...
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
展开更多
关键词
自然标注信息
中文分词
词语抽取
大规模语料库
下载PDF
职称材料
题名
基于无监督学习的专业领域分词歧义消解方法
被引量:
7
1
作者
修驰
宋柔
机构
北京工业大学计算机学院
北京语言大学信息科学学院
出处
《计算机应用》
CSCD
北大核心
2013年第3期780-783,共4页
基金
国家自然科学基金资助项目(60872121)
文摘
中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。
关键词
专业领域分词
分词歧义
字符串频次
互信息
边界熵
Keywords
domain word segmentation
segmentation ambiguity
string frequency
mutual information
boundaryentropy
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于“固结词串”实例的中文分词研究
被引量:
5
2
作者
修驰
宋柔
机构
北京工业大学计算机学院
北京语言大学语言信息处理研究所
出处
《中文信息学报》
CSCD
北大核心
2012年第3期59-64,共6页
基金
国家自然科学基金资助项目(60872121)
文摘
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。
关键词
中文分词
CRF
固结词串
分词歧义
机器学习
Keywords
Chinese Word Segmentation(CWS)
CRF
stable string
ambiguity
machine learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
语料库自然标注信息与中文分词应用研究(英文)
被引量:
2
3
作者
饶高琦
修驰
荀恩东
机构
北京语言大学信息科学学院
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2013年第1期140-146,共7页
基金
国家自然科学基金(60973062,61170162)
中央高校基本科研业务费专项资金(2012-jbyz-001)资助
文摘
以中文分词为应用目标,将大规模语料库上存在的自然标注信息分为显性标注信息与隐性标注信息,分别考察了它们的分布和对大数据集上语言计算的影响。结果表明,两者都直接或间接地表达了作者对语言的分割意志,因而对分词具有积极的影响。通过词语抽取测试,发现在缺乏丰富显性标注信息的文本中,来自语言固有规律的自然标注信息对字符串有着强大的分割性能。
关键词
自然标注信息
中文分词
词语抽取
大规模语料库
Keywords
natural annotation
Chinese word segmentation
word extraction
large-scale corpora
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于无监督学习的专业领域分词歧义消解方法
修驰
宋柔
《计算机应用》
CSCD
北大核心
2013
7
下载PDF
职称材料
2
基于“固结词串”实例的中文分词研究
修驰
宋柔
《中文信息学报》
CSCD
北大核心
2012
5
下载PDF
职称材料
3
语料库自然标注信息与中文分词应用研究(英文)
饶高琦
修驰
荀恩东
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2013
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部