期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于语义扩展模型的中文网页关键词抽取 被引量:4
1
作者 汪洋 帅建梅 《计算机工程》 CAS CSCD 2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方... 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 展开更多
关键词 中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
下载PDF
以黑龙江省为例运用平均聚类法对鸟类物种多样性的分析 被引量:1
2
作者 李贺 《黑龙江科学》 2010年第6期19-22,共4页
通过对黑龙江省鸟类资料的收集、统计,根据自然地理条件和物种的分布特点,对黑龙江鸟类进行了地理区划。初步发现有鸟类18目59科361种。以各地理区域的鸟类数量作为指标,来描述各动物地理省的物种多样性水平,并用组平均聚类法对各动物... 通过对黑龙江省鸟类资料的收集、统计,根据自然地理条件和物种的分布特点,对黑龙江鸟类进行了地理区划。初步发现有鸟类18目59科361种。以各地理区域的鸟类数量作为指标,来描述各动物地理省的物种多样性水平,并用组平均聚类法对各动物地理省的鸟类的物种组成的相近程度和差异距离进行讨论。 展开更多
关键词 黑龙江省鸟类 物种多样性 平均聚类法
下载PDF
归一化的邻接变化数方法在中文分词中的应用 被引量:5
3
作者 何赛克 王小捷 +2 位作者 董远 张韬政 白雪 《中文信息学报》 CSCD 北大核心 2010年第1期15-19,共5页
该文提出了一种无监督和有监督相结合的中文分词方法:将邻接变化数(Accessor Variety,AV)引入基于条件随机场的中文分词系统中。针对邻接变化数在处理较少的训练数据时存在的缺陷,提出了一种归一化的改进方法,以减轻计算AV值时产生的波... 该文提出了一种无监督和有监督相结合的中文分词方法:将邻接变化数(Accessor Variety,AV)引入基于条件随机场的中文分词系统中。针对邻接变化数在处理较少的训练数据时存在的缺陷,提出了一种归一化的改进方法,以减轻计算AV值时产生的波动。基于Bakeoff-4的中文分词实验表明,归一化的邻接变化数方法无论对于封闭测试,还是开放测试,都带来了性能的提升。 展开更多
关键词 计算机应用 中文信息处理 无监督分词 条件随机场 归一化的邻接变化数方法
下载PDF
融合词频特性及邻接变化数的微博新词识别 被引量:10
4
作者 周超 严馨 +2 位作者 余正涛 洪旭东 线岩团 《山东大学学报(理学版)》 CAS CSCD 北大核心 2015年第3期6-10,共5页
大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料... 大量的新词伴随着微博的快速发展而产生,这些新词具有传播速度快及与其他词组合方式灵活的特点,而且在进行分词处理时容易被切分为不同的字符串。提出了一种融合词频特性及邻接变化数的微博新词识别方法。该方法首先对大规模的微博语料进行分词,然后将在两停用词间的相邻字串两两组合,根据组合后的字串频率统计取得新词候选串,再通过组合成词规则进行筛选获得候选新词,最后通过词的邻接域变化特性去除垃圾串获得新词。利用该方法在COAE 2014评测任务上进行了新词的发现实验,准确率达到36.5%,取得了较好的成绩。 展开更多
关键词 邻接变化数 微博新词 字串频率统计 成词规则
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部