期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于PMI-IR的联想词表构造方法研究 被引量:1
1
作者 张泽伟 矫健 张仰森 《计算机技术与发展》 2014年第6期140-144,共5页
通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的... 通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的词组合,进行聚类获取候选同义词集,然后依次计算词wordA与每个候选词的相似度,选择相似度高于某一阈值的词作为词wordA的联想词集,最后形成联想词表。实验表明,借助该方法得到的联想词表进行扩展查询提高了检索的准确率。 展开更多
关键词 逐点互信息方法 联想词表 查询日志
下载PDF
Wikipedia跨语言链接发现中的锚文本译项选择
2
作者 郑剑夕 白宇 +1 位作者 郭程 张桂平 《中文信息学报》 CSCD 北大核心 2016年第2期196-201,216,共7页
Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题:锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多... Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题:锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多个目标译项,如果其译项选择有误,将会直接影响目标链接发现中的链接推荐的准确性。为此,该文提出了一种基于上下文的锚文本译项选择方法,使用基于逐点互信息投票的方式确定锚文本的译项。对中英文Wikipedia中的人名、术语以及缩略语的译项选择进行测试,实验表明该方法取得了较好的效果。 展开更多
关键词 WIKIPEDIA 跨语言链接发现 锚文本 译项选择 逐点互信息
下载PDF
用于网络新闻热点识别的热点新词发现 被引量:5
3
作者 王煜 徐建民 《计算机应用》 CSCD 北大核心 2020年第12期3513-3519,共7页
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中... 通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中的大量无用信息,大幅降低FP-tree复杂度;其次,根据二元逐点互信息(PMI)扩展成多元PMI,并引入热点词的时间特征形成时间逐点互信息(TPMI),用TPMI判定热点新词候选的内部结合度和时间性,剔除不合格的候选词;最后,采用邻接熵确定候选新词边界,从而筛选出热点新词。采集百度网络新闻的7222条新闻标题作为数据集进行实验验证。在将半月内报道次数不低于8次的事件作为热点新闻且时间特征的调节系数为2时,采用TPMI可以正确识别51个热点词,丢失识别2个长时间热点词和2个低热度词,而采用不加入时间特征的多元PMI可正确识别全部热点词55个,但错误识别97个非热点词。分析可知所提的算法降低了FP-tree复杂度,从而减少了时间空间代价,实验结果表明判定热点新词时加入时间特征提高了热点新词识别率。 展开更多
关键词 热点新词 FP-TREE 逐点互信息(PMI) 邻接熵 时间特征
下载PDF
基于分布的中文词表示研究 被引量:2
4
作者 曹学飞 李济洪 王瑞波 《计算机应用研究》 CSCD 北大核心 2019年第3期687-690,共4页
针对基于分布的中文词表示构造过程中的参数选择问题进行了系统性的研究。选择了六种参数进行对比实验,在中文语义相似度任务上对不同参数设置下得到的中文词表示的质量进行了评估。实验结果表明,通过选择合适的参数,基于分布的词表示... 针对基于分布的中文词表示构造过程中的参数选择问题进行了系统性的研究。选择了六种参数进行对比实验,在中文语义相似度任务上对不同参数设置下得到的中文词表示的质量进行了评估。实验结果表明,通过选择合适的参数,基于分布的词表示在中文语义相似度任务上能够得到较高的性能,而且这种高维的词分布表示的质量甚至优于目前流行的基于神经网络(Skip-gram)或矩阵分解(Glo Ve)得到的低维的词表示。 展开更多
关键词 分布表示 语义相似度 逐点互信息
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部