期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
基于Trie树的词语左右熵和互信息新词发现算法 被引量:12
1
作者 郭理 张恒旭 +1 位作者 王嘉岐 秦怀斌 《现代电子技术》 北大核心 2020年第6期65-69,共5页
由于大量新词的出现,使得中文文本分析产生了较大的困难,因此新词发现成为目前中文自然语言处理中的热点和难点问题。为此,文中提出了一种基于Trie树的词语左右熵和互信息新词发现算法。先根据成词规则,筛选掉文本中的停用词和非中文字... 由于大量新词的出现,使得中文文本分析产生了较大的困难,因此新词发现成为目前中文自然语言处理中的热点和难点问题。为此,文中提出了一种基于Trie树的词语左右熵和互信息新词发现算法。先根据成词规则,筛选掉文本中的停用词和非中文字符,将每个字与其右邻的字组成二元组;然后利用左右信息熵和互信息进行成词概率的计算,根据计算到的成词概率和词频筛选出新词;并且设计了三个实验,验证了算法的有效性和可行性。实验结果表明,该新词发现算法成词准确率较高,比其他新词发现算法时间效率有较大的提高,对于中文分词结果的优化起到重要的作用。 展开更多
关键词 新词发现算法 左右熵 互信息 TRIE树 算法设计 对比验证
下载PDF
基于外部排序的字串左右熵快速计算方法 被引量:2
2
作者 张海军 彭成 栾静 《计算机工程与应用》 CSCD 北大核心 2011年第19期18-20,共3页
左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔... 左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵。分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算。 展开更多
关键词 自然语言处理 左右熵 统计特征 新词检测
下载PDF
融合信息熵与多权TF-IDF的营销评论关键词提取算法 被引量:2
3
作者 李璐 何利力 《智能计算机与应用》 2020年第9期69-72,76,共5页
针对传统分词算法、传统提取关键词算法对现代营销活动中以客户为中心,分析客户评论,提取重要客户的需求具有局限性等问题,提出融合信息熵和多权TF-IDF关键词提取算法。该算法首先运用结合互信息和左右熵分词算法对标题、用户评论进行分... 针对传统分词算法、传统提取关键词算法对现代营销活动中以客户为中心,分析客户评论,提取重要客户的需求具有局限性等问题,提出融合信息熵和多权TF-IDF关键词提取算法。该算法首先运用结合互信息和左右熵分词算法对标题、用户评论进行分词,产生新词;再运用TF-IDF算法抽取评论关键词、标题关键词,根据关键词的位置因子、词性因子、词长因子加以不同的特征权重,避免忽视标题和评论的不同重要性,提高结果精度;利用余弦相似度对两者的关键词进行相似度的比较,从而确定该评论的质量。实验结果表明:从互信息、左右熵、词语的位置,词性和词长几个方面考虑,可以提高提取关键词的效率,可以有效地筛选重要评论,为挑选重要客户提供了条件。 展开更多
关键词 TF-IDF算法 特征权重 互信息 左右熵 余弦相似度
下载PDF
基于风险短语自动抽取的上市公司风险识别方法及可视化研究 被引量:13
4
作者 胡小荣 姚长青 高影繁 《情报学报》 CSSCI CSCD 北大核心 2017年第7期663-668,共6页
上市公司作为证券市场的基石,其财务状况与风险信息是众多投资者与研究人员的关注焦点,而上市公司年报中的风险信息披露字段因其权威性与公开性成为研究者评估上市公司风险的研究依据。目前针对风险信息披露字段内容的研究仅停留在基于... 上市公司作为证券市场的基石,其财务状况与风险信息是众多投资者与研究人员的关注焦点,而上市公司年报中的风险信息披露字段因其权威性与公开性成为研究者评估上市公司风险的研究依据。目前针对风险信息披露字段内容的研究仅停留在基于分词与词频统计的风险分析层面,而单个的词并不能很好地揭示不同风险主题的具体表现和语义内容。本文采用基于多因素拟合的风险短语识别技术,对沪深两市环保行业76家上市公司年报中"风险因素"的文字描述字段进行处理,得到环保行业不同风险主题文本中的主题短语,最后使用jQCloud词云图对风险主题短语进行可视化展示。 展开更多
关键词 上市公司风险评估 互信息 左右熵 多因素拟合 可视化
下载PDF
一种面向术语抽取的短语过滤技术 被引量:7
5
作者 周浪 冯冲 黄河燕 《计算机工程与应用》 CSCD 北大核心 2009年第19期9-11,共3页
在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出... 在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。 展开更多
关键词 术语抽取 短语过滤 左右熵 活跃因子
下载PDF
基于新词发现的古典文学作品分词方法研究 被引量:2
6
作者 高嘉琦 赵庆聪 《计算机技术与发展》 2021年第9期178-181,207,共5页
对于中文文本的分词研究来说,现有的分词方法和技术较多都是针对现代汉语,现代汉语的分词方法和体系已经很成熟,但对古代汉语的研究较少。由于古文的特殊性,将现代汉语的分词方法技术直接用于古汉语时,无法得到分词准确的理想效果,目前... 对于中文文本的分词研究来说,现有的分词方法和技术较多都是针对现代汉语,现代汉语的分词方法和体系已经很成熟,但对古代汉语的研究较少。由于古文的特殊性,将现代汉语的分词方法技术直接用于古汉语时,无法得到分词准确的理想效果,目前对古汉语分词方法的研究还未形成成熟的体系。文中提出一种基于新词发现的古典文学作品分词方法,即从大量古典文学作品语料中发现新词,构建古汉语分词词典,在此基础上再对古文文本进行分词。以《三国演义》古文文本处理为例,验证了基于新词发现的古典文学作品分词方法能有效提高古文分词的准确率. 展开更多
关键词 古典文学 新词发现 分词 互信息 左右熵
下载PDF
基于非线性规划理论的事件主题词过滤方法
7
作者 高影繁 苏娜 +1 位作者 张运良 韩红旗 《情报学报》 CSSCI CSCD 北大核心 2018年第1期61-67,共7页
本文提出一种基于非线性规划理论的突发事件主题词自动过滤方法。首先以左右邻接熵为主题短语的边界识别依据,选出更具信息量的短语作为候选主题词,然后通过将候选主题词回溯原始文档集合的方式过滤掉部分噪声词,最后采用基于非线性规... 本文提出一种基于非线性规划理论的突发事件主题词自动过滤方法。首先以左右邻接熵为主题短语的边界识别依据,选出更具信息量的短语作为候选主题词,然后通过将候选主题词回溯原始文档集合的方式过滤掉部分噪声词,最后采用基于非线性规划理论的函数,对抽取到的候选主题词按权重进行排序,选定更具突发事件类别表征能力的主题词。在几个类别突发事件语料上与传统的TF-IDF算法的对比实验结果说明了本文方法的有效性和实用价值。 展开更多
关键词 突发事件主题词 左右邻接 噪声词过滤 非线性规划理论
下载PDF
基于边界标记集的专利文献术语抽取方法 被引量:7
8
作者 丁杰 吕学强 刘克会 《计算机工程与科学》 CSCD 北大核心 2015年第8期1591-1598,共8页
目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果。为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提... 目前,大部分术语边界的确定方法是通过选取合适的统计量,设置合适的阈值计算字符串之间的紧密程度,但该类方法在抽取长术语时不能得到很好的效果。为了解决在术语抽取过程中长术语抽取召回率低的问题,在研究了大量专利文献的基础上,提出了一种基于专利术语边界标记集的术语抽取方法。方法中提出了边界标记集的概念,并结合专利文献中术语边界的特点构建专利术语边界标记集;提出了一种种子术语权重计算方法抽取种子术语;使用人民日报语料作为对比语料抽取专利文献术语部件词库,提高候选术语的术语度;最后采用左右边界熵的方法对识别出的术语进行过滤。实验表明,所提出的方法具有较好的实验结果,正确率81.67%,召回率71.92%,F值0.765,较对比实验有较大提高。 展开更多
关键词 边界标记集 种子术语 部件库 左右边界
下载PDF
扩展搜索日志上下文的新词识别
9
作者 李雪伟 吕学强 刘克会 《现代图书情报技术》 CSSCI 北大核心 2014年第11期59-65,共7页
【目的】大规模搜集、整理新词扩充现有词典,提高汉语分词准确率,推动中文信息处理的发展。【方法】根据搜索日志查询串特征及新词特点,提出扩展搜索日志上下文的新词识别方法。首先,通过分析查询串的特点获取种子词集合,利用种子词集... 【目的】大规模搜集、整理新词扩充现有词典,提高汉语分词准确率,推动中文信息处理的发展。【方法】根据搜索日志查询串特征及新词特点,提出扩展搜索日志上下文的新词识别方法。首先,通过分析查询串的特点获取种子词集合,利用种子词集在搜索日志中进行全文扩展,提取候选新词。其次,根据新词的时间属性发现新词串,最后基于词语的边界信息,提出改进左右熵方法抽取语料中存在的新词语。【结果】在搜狗日志上进行实验,P@100的平均准确率达到89.60%。【局限】对比词串集合的规模会在一定程度上影响新词的正确率。【结论】实验表明该方法适用于搜索日志这种缺失上下文信息的文本的新词识别。 展开更多
关键词 搜索日志 全文扩展 新词 边界 改进左右熵
原文传递
基于网络文本的汉语多词表达抽取方法 被引量:5
10
作者 龚双双 陈钰枫 +1 位作者 徐金安 张玉洁 《山东大学学报(理学版)》 CAS CSCD 北大核心 2018年第9期40-48,共9页
多词表达(multiword expressions,MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层次... 多词表达(multiword expressions,MWEs)是自然语言中一类固定或半固定搭配的语言单元,特别在网络文本中,多词表达频繁出现,给分词和后续文本理解带来了巨大挑战,因此,面向网络文本提出了一种双层抽取策略来实现多词表达的识别。第一层次,利用基于左右熵联合增强互信息的算法来实现多词表达的初步抽取;第二层次,在第一层次获得的多词表达候选列表的基础上,利用SVM分类器,构建上下文和词向量特征,进行多词表达与非多词表达的分类,实现多词表达候选列表的进一步过滤。经过实验测试,在5 000条微博语料上,第一层次获得的多词表达的F值为84. 92%,第二层次多词表达识别的F值为89. 58%,相比于基线系统,性能有很大的提升。实验结果表明,双层抽取策略能够实现网络多词表达的有效抽取,并能有效改善分词结果。 展开更多
关键词 多词表达 左右熵 增强互信息 SVM 分词
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部