期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
哈萨克语NP和VP结构的歧义类型与消除策略研究
1
作者 木合亚提·尼亚孜别克 古力沙吾利·塔里甫 古丽拉·阿东别克 《西南师范大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第7期41-46,共6页
以现代哈萨克语短语识别与短语块库构建技术研究工程为背景,以NP和VP结构的歧义类型研究及消除为目的,提取统计方法来处理NP和VP结构的歧义问题.该方法在已经统计与分析出的哈萨克语短语基础上,对哈萨克语NP和VP短语组合结构歧义做全面... 以现代哈萨克语短语识别与短语块库构建技术研究工程为背景,以NP和VP结构的歧义类型研究及消除为目的,提取统计方法来处理NP和VP结构的歧义问题.该方法在已经统计与分析出的哈萨克语短语基础上,对哈萨克语NP和VP短语组合结构歧义做全面分析和整理.用互信息方法解决NP和VP的歧义问题准确率(72%)并不高.为了达到更好的准确率就需要数量较大的训练语料库,但是目前实验环境并没有足够的语料.因此,基于规则方法标注好语料并采用人工方式完善训练语料库,再使用最大熵方法来处理歧义问题.实验结果表明,基于统计方法解决NP和VP结构的歧义问题是有效的,其准确率在封闭测试中达到了80.1%. 展开更多
关键词 哈萨克语 最大熵模型 NP VP搭配 歧义消除
下载PDF
哈萨克语动词短语自动识别研究与实现 被引量:3
2
作者 古丽扎达·海沙 古丽拉·阿东别克 《计算机工程与应用》 CSCD 北大核心 2015年第2期218-223,240,共7页
由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克... 由于哈萨克语基本动词短语Kz Base VP的组成结构比较复杂,并且存在歧义情况和训练语料规模不够大等问题,所以既不能直接使用基于规则的方法,又不能直接使用基于统计的方法来进行处理。所以提出了一种规则与最大熵相结合的方法对哈萨克语基本动词短语(Kz Base VP)进行识别。在该混合策略系统中,根据专属Kz Base VP的特点构建了Kz Base VP搭配规则集,通过规则集对无歧义的Kz Base VP进行标注,其正确率为85.43%;运用基于统计的最大熵模型对存在歧义的Kz Base VP进行识别,根据哈萨克语的单词、词性、词缀和上下文信息等来设计最大熵模型的特征模板,并对模型进行了改进,在解码中选取概率最大的前n个上下文信息分别加入到下一个VP的特征向量中,以此类推直至文本结束,最终选出一条概率最优的VP标注。实验证明,在封闭和开发测试条件下对基本动词短语的识别准确率分别为97.23%和93.22%。 展开更多
关键词 哈萨克语基本动词短语 短语分析 歧义 最大熵模型 规则集
下载PDF
基于PChart算法的哈萨克语句法分析 被引量:4
3
作者 尚文清 古丽拉.阿东别克 +1 位作者 牛娜 于智娟 《计算机工程与设计》 北大核心 2016年第3期832-836,共5页
为研究哈萨克语的句法分析,研究自然语言处理的统计方法的句法分析。根据概率上下无关文法模型和Chart算法的特点,将概率引入Chart算法,提出一种PChart算法。利用PChart算法对哈萨克语进行句法分析,解决句法分析中哈萨克文法的获取和歧... 为研究哈萨克语的句法分析,研究自然语言处理的统计方法的句法分析。根据概率上下无关文法模型和Chart算法的特点,将概率引入Chart算法,提出一种PChart算法。利用PChart算法对哈萨克语进行句法分析,解决句法分析中哈萨克文法的获取和歧义消解问题,实现一个基于PChart算法的哈萨克语句法分析器,识别正确的哈萨克语句子。实验结果表明,该分析器在准确率、召回率等方面的性能都有所提高。 展开更多
关键词 句法分析 自然语言处理 CHART 哈萨克语 统计 概率上下无关文法
下载PDF
基于最大熵的哈萨克语词性标注模型 被引量:4
4
作者 桑海岩 古丽拉.阿东别克 牛宁宁 《计算机工程与应用》 CSCD 2013年第11期126-129,165,共5页
最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入... 最大熵模型能够充分利用上下文,灵活取用多个特征。使用最大熵模型进行哈萨克语的词性标注,根据哈语的粘着性、形态丰富等特点设计特征模板,并加入了向后依赖词性的特征模板。对模型进行了改进,在解码中取概率最大的前n个词性分别加入下一个词的特征向量中,以此类推直至句子结束,最终选出一条概率最优的词性标注序列。实验结果表明,特征模板的选择是正确的,改进模型的准确率达到了96.8%。 展开更多
关键词 自然语言处理 词性标注 最大熵模型 哈萨克语
下载PDF
基于排序集成的哈萨克语固定短语抽取
5
作者 桑海岩 古丽拉·阿东别克 +1 位作者 孙瑞娜 陈莉 《计算机工程与应用》 CSCD 2014年第21期205-209,223,共6页
短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富... 短语抽取是文本自动分类、主题提取及专利检索分析等文本信息理解等工作中都要应用到的一项关键技术。固定短语抽取作为短语研究的一部分,对短语标注、辞典编撰等自然语言处理任务都具有重要的现实意义。哈萨克语是黏着语,词形变化丰富,这些特点给哈语固定短语的抽取带来了一定的困难。提出一个总体的固定短语抽取算法,把固定短语抽取看作一个排序问题,使用C-value、互信息和log-likelihood进行抽取排序,并设计了一个新的排序集成方法对抽取的结果进行集成。实验分析结果表明,与单独的抽取算法比较,该算法达到了更高的准确率。 展开更多
关键词 自然语言处理 固定短语 排序集成 互信息 似然比 C-value算法
下载PDF
哈萨克语“v+n+n”格式的歧义消解
6
作者 户冰心 古丽拉.阿东别克 祁卉 《计算机工程》 CAS CSCD 2014年第12期141-145,共5页
通过研究大量包含歧义的短语实例,分析计算机处理过程中遇到的短语结构边界判定的歧义问题。针对"v+n+n"这种常见的歧义格式,采用条件随机场模型进行消歧。结合哈萨克语的语言特点,提出基于哈萨克语词尾的类别及位置信息来构... 通过研究大量包含歧义的短语实例,分析计算机处理过程中遇到的短语结构边界判定的歧义问题。针对"v+n+n"这种常见的歧义格式,采用条件随机场模型进行消歧。结合哈萨克语的语言特点,提出基于哈萨克语词尾的类别及位置信息来构建特征模板的方法。以新疆日报(哈语版)2008年30天的数据统计为实验语料,加入消歧策略后名词短语和动词短语的识别准确率分别达到87.23%和97.46%;召回率分别达到80.12%和95.80%。实验结果表明,将提取出的特征引入到条件随机场模型后,系统的准确率、召回率和F值均有所提高。 展开更多
关键词 哈萨克语 自然语言处理 歧义 附加成分 条件随机场模型 模板
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部