基于词向量距离的相关词变迁研究——以《情报探索》杂志摘要为例被引量：3

Word Embedding Distance-based Study on Changes of Related Words:Case Study of Abstracts in Journal Information Research

下载PDF

导出

摘要通过对《情报探索》杂志的摘要文本数据集进行训练,得到不同时间段上的词向量库,然后在不同时段上对词向量间的距离进行计算,得到主题词的相关词列表,从中发现相关词的变迁情况,并由此进行进一步文本挖掘。 The paper trains abstract text datasets in journal Information Research, and obtains word embedding database of different periods. Then it gets the lists of related words by calculating vector distance of the words embedding in different periods, finds the changes of related words, and does further text mining.

作者方延风陈健

机构地区福建省科学技术信息研究所福建省信息网络重点实验室

出处《情报探索》 2015年第4期5-7,10,共4页 Information Research

基金福建省科技计划重点项目"基于云存储技术的科技项目数据挖掘研究"(项目编号:2012H0052)成果之一

关键词词向量向量距离相关词文本挖掘 word2vec word embedding vector distance related word text mining word2vec

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1王方,阮梅花,朱海刚,熊燕,缪有刚.基于向量空间模型的科技文献自动分类研究[J].情报探索,2013(12):1-3. 被引量：5
2董刊生,方金云.基于向量距离的词序相似度算法[J].中文信息学报,2009,23(3):45-50. 被引量：11
3殷希红,乔晓东,张运良.基于引文耦合分析方法的相关词识别[J].情报杂志,2014,33(7):161-164. 被引量：1
4Alberto Paccanaro,Geoffrey Hinton. Learning dis- tributed representations of concepts from relational data using linear relation [J]. IEEE Transactions on Knowledge and Data Engineering, 2001 (3) : 98-104.
5郑文超,徐鹏.利用word2vec对中文词进行聚类的研究[J].软件,2013,34(12):160-162. 被引量：29
6李赟,黄开妍,任福继,钟义信.维基百科的中文语义相关词获取及相关度分析计算[J].北京邮电大学学报,2009,32(3):109-112. 被引量：19

二级参考文献41

1包金龙.基于向量空间模型的信息检索系统的设计[J].情报杂志,2005,24(7):44-45. 被引量：16
2贺卫红,曹毅.基于向量空间模型文本过滤算法[J].系统工程,2005,23(10):122-125. 被引量：3
3张选平,马琮,蒋宇,袁明轩,梁平.一种基于概念抽取的相关词推荐模型[J].微电子学与计算机,2006,23(5):163-165. 被引量：2
4章成志,苏兰芳,苏新宁.基于多语境的相关词自动提取系统的设计与实现[J].现代图书情报技术,2006(9):23-28. 被引量：6
5袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：153
6Possas B, Ziviani N, Meira W, Ribeiro-Neto B. Set- based vector model: An efficient approach for correlation based ranking [J]. ACM Transactions on Information Systems, 2005, 23(4) : 397-429.
7Hammouda K M, KamelMS. Efficient phras-based document indexing for Web document clustering [J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(10):1279-1296.
8Saraiva, P. C., Moura, E. S., Ziviani, N. Rank-Preserving two-level caching for scalable search engines [C]//Proceedings of the 24th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (New Orleans, Louisiana, United States). SIGIR'01. ACM Press, New York, NY, 2008, 51-58.
9Jansen B. J., Spink, A., Bateman, J., and Saracevic, T. Real life information retrieval: A study of user queries on the web[C]//ACM SIGIR Forum. SIGIR'98. New York, NY, 1998, 32(1): 5-17.
10Leacock C, Chodorow wordnet similarity for Fellbaum C. Wordnet Princeton: MIT Press, M. Combining local context and word sense identification [C] // An Electronic Lexical Database. 1998:265 -283.

共引文献60

1焦自程,赵旭章,史珂轩.双语问答小程序的设计与实现[J].新一代信息技术,2022,5(5):18-20.
2巩军,刘鲁.基于知识网络的专家知识的表示与度量[J].科学学研究,2010,28(10):1521-1529. 被引量：9
3徐斌,张玉峰.基于语义准则函数的中文评论性文本极性聚类算法研究[J].情报学报,2011,30(5):451-455. 被引量：1
4张海粟,马大明,邓智龙.基于维基百科的语义知识库及其构建方法研究[J].计算机应用研究,2011,28(8):2807-2811. 被引量：26
5谌志群,高飞,曾智军.基于中文维基百科的词语相关度计算[J].情报学报,2012,31(12):1265-1270. 被引量：12
6王静,何婷婷,衣马木艾山.阿布都力克木.协同过滤在中文维基百科类别推荐上的应用[J].计算机应用,2013,33(3):838-840.
7沈学利,程宇伟.基于竞争学习网络的中文关键字提取算法[J].计算机工程,2013,39(2):207-210.
8万富强,吴云芳.基于中文维基百科的词语语义相关度计算[J].中文信息学报,2013,27(6):31-37. 被引量：9
9白培发,王成良,徐玲.一种融合词语位置特征的Lucene相似度评分算法[J].计算机工程与应用,2014,50(2):129-132. 被引量：8
10尹坤,尹红风,杨燕,贾真.基于SimRank的百度百科词条语义相似度计算[J].山东大学学报（工学版）,2014,44(3):29-35. 被引量：10

同被引文献28

1贺敏,王丽宏,杜攀,张瑾,程学旗.基于有意义串聚类的微博热点话题发现方法[J].通信学报,2013,34(S1):256-262. 被引量：12
2马金娜,田大钢.基于SVM的中文文本自动分类研究[J].计算机与现代化,2006(8):5-8. 被引量：8
3田晓飞,杨海洋,周慧.光伏发电中光电转换效率问题的探讨[J].科技创新导报,2008,5(22):115-115. 被引量：6
4刘星星,何婷婷,龚海军,陈龙.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85. 被引量：30
5李蔚,吴婧华,张文良.太阳能光伏技术与应用[J].智能建筑电气技术,2009(2):8-12. 被引量：7
6奉国和.SVM分类核函数及参数选择比较[J].计算机工程与应用,2011,47(3):123-124. 被引量：276
7蔺旭鹏,强颖怀,肖裕鹏,徐明磊.薄膜太阳电池研究综述[J].半导体技术,2012,37(2):96-104. 被引量：7
8朱晋伟,孙江涛.中国光伏行业发展中的新问题及对策[J].企业经济,2012(3):125-128. 被引量：12
9贺亮,李芳.基于话题模型的科技文献话题发现和趋势分析[J].中文信息学报,2012,26(2):109-115. 被引量：26
10刘芳.基于SOM聚类的可视化方法及应用研究[J].计算机应用研究,2012,29(4):1300-1303. 被引量：6

引证文献3

1周雷.基于Word2Vec方法的主题数据提取与分析——以德国光伏科技项目为例[J].情报探索,2018(7):36-40. 被引量：1
2郑亚南,田大钢.基于GloVe与SVM的文本分类研究[J].软件导刊,2018,17(6):45-48. 被引量：10
3宋莉娜,冯旭鹏,刘利军,黄青松.基于SOM聚类的微博话题发现[J].计算机应用研究,2018,35(3):671-674. 被引量：10

二级引证文献21

1徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
2张海涛,刘雅姝,张枭慧,宋拓.基于模块度的话题发现及网民情感波动研究——以新浪微博“中美间贸易摩擦”话题为例[J].图书情报工作,2019,63(4):6-14. 被引量：13
3郭佳,罗森林,陈倩柔.基于Paragraph Vector模型的科研热点发现方法[J].电子设计工程,2018,26(20):105-109.
4李海明.基于SSDKmeans算法的微博热点话题发现研究[J].软件导刊,2019,18(9):173-175. 被引量：1
5高巍,孙盼盼,李大舟.Twitter情感分析中停用词处理[J].计算机工程与设计,2019,40(11):3180-3185. 被引量：3
6王欣研,张向先,张莉曼.学术APP用户在线评论主题语义关联研究[J].情报科学,2020,38(6):25-31. 被引量：10
7王鑫芸,王昊,邓三鸿,张宝隆.面向期刊选择的学术论文内容分类研究[J].数据分析与知识发现,2020,4(7):96-109. 被引量：10
8方炯焜,陈平华,廖文雄.结合GloVe和GRU的文本分类模型[J].计算机工程与应用,2020,56(20):98-103. 被引量：27
9方晓东,刘昌辉,王丽亚,殷兴.基于BERT的复合网络模型的中文文本分类[J].武汉工程大学学报,2020,42(6):688-692. 被引量：7
10邱泽国,贺百艳.基于文本挖掘的网络舆情主题发现与情感分析[J].对外经贸,2021(2):76-79. 被引量：3

1王秀娟,郑康锋.基于文档空间向量距离的查询扩展[J].计算机工程,2009,35(18):54-56. 被引量：5
2王鹏,史辰方.一种基于赋权向量距离的检索技术[J].中国电子商情（通信市场）,2012(5):26-30. 被引量：1
3刘颖莹,刘培玉,王智昊,李情情,朱振方.一种基于密度峰值发现的文本聚类算法[J].山东大学学报（理学版）,2016,51(1):65-70. 被引量：10
4王丽月,叶东毅.面向游戏客服场景的自动问答系统研究与实现[J].计算机工程与应用,2016,52(17):152-159. 被引量：11
5李宗红.利用加权欧氏距离测评期刊的核心著者群[J].情报探索,2008(5):14-15. 被引量：1
6王洪波,荣岩,罗贺,王晓佳.基于流形学习的DNA序列数据挖掘方法研究[J].合肥工业大学学报（自然科学版）,2014,37(8):933-937. 被引量：2
7夏爱军,孙树森,曾勇.一种基于切片的三维模型检索算法[J].计算机应用研究,2012,29(1):363-365. 被引量：4
8王立印,张辉,陈勇.一种基于Dice-Euclidean相似度计算的协同过滤算法[J].计算机应用研究,2015,32(10):2891-2895. 被引量：10
9何峥,李小平.基于动态均衡服务器的在线启发式组合[J].通信与广播电视,2013(4):56-62.
10董刊生,方金云.基于向量距离的词序相似度算法[J].中文信息学报,2009,23(3):45-50. 被引量：11

情报探索

2015年第4期

浏览历史

内容加载中请稍等...

基于词向量距离的相关词变迁研究——以《情报探索》杂志摘要为例被引量：3

参考文献6

二级参考文献41

共引文献60

同被引文献28

引证文献3

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于词向量距离的相关词变迁研究——以《情报探索》杂志摘要为例 被引量：3

参考文献6

二级参考文献41

共引文献60

同被引文献28

引证文献3

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于词向量距离的相关词变迁研究——以《情报探索》杂志摘要为例被引量：3