期刊导航
期刊开放获取
重庆大学
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于PMI-IR的联想词表构造方法研究
被引量:
1
1
作者
张泽伟
矫健
张仰森
《计算机技术与发展》
2014年第6期140-144,共5页
通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的...
通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的词组合,进行聚类获取候选同义词集,然后依次计算词wordA与每个候选词的相似度,选择相似度高于某一阈值的词作为词wordA的联想词集,最后形成联想词表。实验表明,借助该方法得到的联想词表进行扩展查询提高了检索的准确率。
展开更多
关键词
逐点互信息
方法
联想词表
查询日志
下载PDF
职称材料
Wikipedia跨语言链接发现中的锚文本译项选择
2
作者
郑剑夕
白宇
+1 位作者
郭程
张桂平
《中文信息学报》
CSCD
北大核心
2016年第2期196-201,216,共7页
Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题:锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多...
Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题:锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多个目标译项,如果其译项选择有误,将会直接影响目标链接发现中的链接推荐的准确性。为此,该文提出了一种基于上下文的锚文本译项选择方法,使用基于逐点互信息投票的方式确定锚文本的译项。对中英文Wikipedia中的人名、术语以及缩略语的译项选择进行测试,实验表明该方法取得了较好的效果。
展开更多
关键词
WIKIPEDIA
跨语言链接发现
锚文本
译项选择
逐点互信息
下载PDF
职称材料
用于网络新闻热点识别的热点新词发现
被引量:
5
3
作者
王煜
徐建民
《计算机应用》
CSCD
北大核心
2020年第12期3513-3519,共7页
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中...
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中的大量无用信息,大幅降低FP-tree复杂度;其次,根据二元逐点互信息(PMI)扩展成多元PMI,并引入热点词的时间特征形成时间逐点互信息(TPMI),用TPMI判定热点新词候选的内部结合度和时间性,剔除不合格的候选词;最后,采用邻接熵确定候选新词边界,从而筛选出热点新词。采集百度网络新闻的7222条新闻标题作为数据集进行实验验证。在将半月内报道次数不低于8次的事件作为热点新闻且时间特征的调节系数为2时,采用TPMI可以正确识别51个热点词,丢失识别2个长时间热点词和2个低热度词,而采用不加入时间特征的多元PMI可正确识别全部热点词55个,但错误识别97个非热点词。分析可知所提的算法降低了FP-tree复杂度,从而减少了时间空间代价,实验结果表明判定热点新词时加入时间特征提高了热点新词识别率。
展开更多
关键词
热点新词
FP-TREE
逐点互信息
(PMI)
邻接熵
时间特征
下载PDF
职称材料
基于分布的中文词表示研究
被引量:
2
4
作者
曹学飞
李济洪
王瑞波
《计算机应用研究》
CSCD
北大核心
2019年第3期687-690,共4页
针对基于分布的中文词表示构造过程中的参数选择问题进行了系统性的研究。选择了六种参数进行对比实验,在中文语义相似度任务上对不同参数设置下得到的中文词表示的质量进行了评估。实验结果表明,通过选择合适的参数,基于分布的词表示...
针对基于分布的中文词表示构造过程中的参数选择问题进行了系统性的研究。选择了六种参数进行对比实验,在中文语义相似度任务上对不同参数设置下得到的中文词表示的质量进行了评估。实验结果表明,通过选择合适的参数,基于分布的词表示在中文语义相似度任务上能够得到较高的性能,而且这种高维的词分布表示的质量甚至优于目前流行的基于神经网络(Skip-gram)或矩阵分解(Glo Ve)得到的低维的词表示。
展开更多
关键词
分布表示
语义相似度
逐点互信息
下载PDF
职称材料
题名
基于PMI-IR的联想词表构造方法研究
被引量:
1
1
作者
张泽伟
矫健
张仰森
机构
北京信息科技大学计算机学院智能信息处理研究所
出处
《计算机技术与发展》
2014年第6期140-144,共5页
基金
国家自然科学基金资助项目(61070119)
北京市属高等学校创新团队建设与教师职业发展计划项目(IDHT20130519)
北京市教委专项基金(PXM2012-014224-000020)
文摘
通过对大规模查询日志进行挖掘分析进而提高检索的准确率一直是信息检索领域的热点问题。文章提出一种基于PMI-IR(逐点互信息方法)的联想词表构造方法。该方法利用序列模式挖掘算法扫描大规模用户查询日志,获取共现频次超过某一阈值的词组合,进行聚类获取候选同义词集,然后依次计算词wordA与每个候选词的相似度,选择相似度高于某一阈值的词作为词wordA的联想词集,最后形成联想词表。实验表明,借助该方法得到的联想词表进行扩展查询提高了检索的准确率。
关键词
逐点互信息
方法
联想词表
查询日志
Keywords
PMI-IR
thesaurus
query logs
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
Wikipedia跨语言链接发现中的锚文本译项选择
2
作者
郑剑夕
白宇
郭程
张桂平
机构
沈阳航空航天大学知识工程研究中心
出处
《中文信息学报》
CSCD
北大核心
2016年第2期196-201,216,共7页
基金
国家科技支撑计划资助项目(2012BAH14F00)
国家973计划资助项目(2010CB530401)
文摘
Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题:锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多个目标译项,如果其译项选择有误,将会直接影响目标链接发现中的链接推荐的准确性。为此,该文提出了一种基于上下文的锚文本译项选择方法,使用基于逐点互信息投票的方式确定锚文本的译项。对中英文Wikipedia中的人名、术语以及缩略语的译项选择进行测试,实验表明该方法取得了较好的效果。
关键词
WIKIPEDIA
跨语言链接发现
锚文本
译项选择
逐点互信息
Keywords
Wikipedia
CLLD
anchor text
translation selection
PMI
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
用于网络新闻热点识别的热点新词发现
被引量:
5
3
作者
王煜
徐建民
机构
河北大学网络空间安全与计算机学院
出处
《计算机应用》
CSCD
北大核心
2020年第12期3513-3519,共7页
基金
国家社会科学基金资助项目(17FTQ002)
河北省社会科学基金资助项目(HB15SH064)。
文摘
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中的大量无用信息,大幅降低FP-tree复杂度;其次,根据二元逐点互信息(PMI)扩展成多元PMI,并引入热点词的时间特征形成时间逐点互信息(TPMI),用TPMI判定热点新词候选的内部结合度和时间性,剔除不合格的候选词;最后,采用邻接熵确定候选新词边界,从而筛选出热点新词。采集百度网络新闻的7222条新闻标题作为数据集进行实验验证。在将半月内报道次数不低于8次的事件作为热点新闻且时间特征的调节系数为2时,采用TPMI可以正确识别51个热点词,丢失识别2个长时间热点词和2个低热度词,而采用不加入时间特征的多元PMI可正确识别全部热点词55个,但错误识别97个非热点词。分析可知所提的算法降低了FP-tree复杂度,从而减少了时间空间代价,实验结果表明判定热点新词时加入时间特征提高了热点新词识别率。
关键词
热点新词
FP-TREE
逐点互信息
(PMI)
邻接熵
时间特征
Keywords
hot new word
Frequent Pattern tree(FP-tree)
Pointwise Mutual Information(PMI)
branch entropy
time feature
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于分布的中文词表示研究
被引量:
2
4
作者
曹学飞
李济洪
王瑞波
机构
山西大学软件学院
出处
《计算机应用研究》
CSCD
北大核心
2019年第3期687-690,共4页
基金
国家社会科学规划基金资助项目(16BTJ034)
文摘
针对基于分布的中文词表示构造过程中的参数选择问题进行了系统性的研究。选择了六种参数进行对比实验,在中文语义相似度任务上对不同参数设置下得到的中文词表示的质量进行了评估。实验结果表明,通过选择合适的参数,基于分布的词表示在中文语义相似度任务上能够得到较高的性能,而且这种高维的词分布表示的质量甚至优于目前流行的基于神经网络(Skip-gram)或矩阵分解(Glo Ve)得到的低维的词表示。
关键词
分布表示
语义相似度
逐点互信息
Keywords
distributional representation
semantic similarity
pointwise mutual information
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于PMI-IR的联想词表构造方法研究
张泽伟
矫健
张仰森
《计算机技术与发展》
2014
1
下载PDF
职称材料
2
Wikipedia跨语言链接发现中的锚文本译项选择
郑剑夕
白宇
郭程
张桂平
《中文信息学报》
CSCD
北大核心
2016
0
下载PDF
职称材料
3
用于网络新闻热点识别的热点新词发现
王煜
徐建民
《计算机应用》
CSCD
北大核心
2020
5
下载PDF
职称材料
4
基于分布的中文词表示研究
曹学飞
李济洪
王瑞波
《计算机应用研究》
CSCD
北大核心
2019
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部