短文本理解研究被引量：50

Short Text Understanding:A Survey

下载PDF

导出

摘要短文本理解是一项对于机器智能至关重要但又充满挑战的任务.这项任务有益于众多应用场景,如搜索引擎、自动问答、广告和推荐系统.完成这些应用的首要步骤是将输入文本转化为机器可以诠释的形式,即帮助机器"理解"短文本的含义.基于这一目标,许多方法利用外来知识源来解决短文本中语境信息不足的问题.通过总结短文本理解领域的相关工作,介绍了基于向量的短文本理解框架.同时,探讨了短文本理解领域未来的研究方向. Short text understanding is an important but challenging task relevant for machine intelligence. The task can potentially benefit various online applications, such as search engines, automatic question-answering, online advertising and recommendation systems. In all these applications, the necessary first step is to transform an input text into a machine-interpretable representation, namely to “understand” the short text. To achieve this goal, various approaches have been proposed to leverage external knowledge sources as a complement to the inadequate contextual information accompanying short texts. This survey reviews current progress in short text understanding with a focus on the vector based approaches, which aim to derive the vectorial encoding for a short text. We also explore a few potential research topics in the field of short text understanding.

作者王仲远程健鹏王海勋文继荣

机构地区中国人民大学信息学院微软亚洲研究院牛津大学计算机科学学院 Facebook

出处《计算机研究与发展》 EI CSCD 北大核心 2016年第2期262-269,共8页 Journal of Computer Research and Development

基金国家"九七三"基础研究发展计划基金项目(2014CB340403) 中央高校基本科研业务费专项资金(14XNLF05)~~

关键词知识挖掘短文本理解概念化语义计算 knowledge mining short text understanding conceptualization semantic computing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献34

1Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis [J]. Journal of the Association of Information Sience, 1990, 41(6) : 391-407.
2Song Y, Wang H, Wang Z, et al. Short text conceptualization using a probabilistic knowledgebase [C]// Proc of the 22nd Int Joint Conf on Artificial Intelligence (IJCAI). Palo Alto, CA: AAAI, 2011:2330-2336.
3Wang Z, Zhao K, Wang H, et al. Query understanding through knowledge-based conceptualization [C]//Proc of the 24th Int Joint Conf on Artificial Intelligence (IJCAI). Palo Alto, CA: AAAI, 2015:3264-3270.
4Lund K, Burgess C. Producing high-dimensional semantic spaces from lexical co-occurrence[J]. Behavior Research Methods, Instruments,& Computers, 1996, 28(2): 203- 2O8.
5Turney P D, Pantel P. From frequency to meaning: Vector space models of semantics [J]. Journal of Artificial Intelligence Research, 2010, 37(1): 141-188.
6Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. The Journal of Machine Learning Research, 2003, 3(2): 1137-1155.
7Mikolov T, Karafiat M, Burget L, et al. Recurrent neural network based language model [C] //Proc of the llth Annual Conf of the Int Speech Communication Association. New York: ACM, 2010: 1045-1048.
8Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space [J]. Computing Research Repository, 2013 [2015-12-30]. http://arxiv, org/ pdf/1301. 3781. pdf.
9Collobert R, Weston J. A unified architecture for natural language processing: Deep neural networks with multitask learning [C]//Proc of the 25th Int Conf on Machine Learning (ICML). New York: ACM, 2008:160-167.
10Ire Q V, Mikolov T. Distributed representations of sentences and documents [C]//Proc of the 31st Int Conf on Machine Learning(ICML). PaloAlto, CA: AAAI, 2014:1188-1196.

同被引文献212

1唐晓波,全莉莉.基于分众分类的本体构建分析[J].情报理论与实践,2008,31(6):931-936. 被引量：17
2张良,蔡生.信息量的度量及应用[J].沈阳大学学报,2004,16(2):89-91. 被引量：4
3程俊霞,李芝棠,邹明光,肖津.基于SVM过滤的微博新闻话题检测方法[J].通信学报,2013,34(S2):74-78. 被引量：3
4李凡,林爱武,陈国社.一种基于VSM文本分类系统的设计与实现[J].华中科技大学学报（自然科学版）,2005,33(3):53-55. 被引量：19
5张晓龙,姚天顺.基于文本句法的文本生成模型[J].中文信息学报,1995,9(1):8-15. 被引量：6
6许云,樊孝忠,张锋.一种不需分词的中文文本分类方法[J].北京理工大学学报,2005,25(9):778-781. 被引量：5
7盛苏平,刘春燕,赵新力.《电子政务主题词表》编制及应用系统开发[J].中国信息导报,2006(3):37-39. 被引量：7
8刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
9周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
10李伟,黄颖.文本聚类算法的比较[J].科技情报开发与经济,2006,16(22):234-236. 被引量：4

引证文献50

1孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
2文莎.基于神经网络的文本分类[J].信息通信,2019,0(12):173-174.
3张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):27-35. 被引量：40
4黄华军,谭骏珊,秦姣华.基于主题模型的微博话题检测算法[J].网络与信息安全学报,2016,2(5):30-38.
5张欣,陆颖隽,李立睿,邓仲华.古典诗词语句的标签模型研究[J].信息资源管理学报,2017,7(2):76-80.
6梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：138
7郑德俊,朱婷婷,沈军威.基于改进K均值算法的移动图书馆用户评论需求聚类研究[J].数字图书馆论坛,2017(10):26-31. 被引量：2
8刘泽锦,王洁.同主题词短文本分类算法中BTM的应用与改进[J].计算机系统应用,2017,26(11):213-219. 被引量：4
9刘德元,魏晶晶,吴运兵,廖祥文.基于文本概念化的观点检索方法[J].山西大学学报（自然科学版）,2018,41(2):295-301.
10梁吉业,乔洁,曹付元,刘晓琳.面向短文本分析的分布式表示模型[J].计算机研究与发展,2018,55(8):1631-1640. 被引量：7

二级引证文献531

1侯雪亮,李新,陈远平.基于多神经网络混合的短文本分类模型[J].计算机系统应用,2020(10):9-19. 被引量：5
2余传明,李浩男,王曼怡,黄婷婷,安璐.基于深度学习的知识表示研究:网络视角[J].数据分析与知识发现,2020,4(1):63-75.
3张克,张文俊,朱蕴文,邢毅雪.基于内联关系的方面级情感分析方法[J].上海大学学报（自然科学版）,2022,28(1):157-169.
4王光,李鸿宇,邱云飞,郁博文,柳厅文.基于图卷积记忆网络的方面级情感分类[J].中文信息学报,2021,35(8):98-106. 被引量：17
5申立银,吴莹,张羽,舒天衡,何虹熳,孟聪会.大数据在我国城市可持续发展中应用的研究综述——基于文献计量学和信息可视化的方法[J].建设管理研究,2022(1):79-94.
6马超群,杨竟澜,任奕帅,谢志斌.基于H-LSTM模型的沪深300指数价格预测研究[J].计量经济学报,2021(2):437-451. 被引量：4
7张苑,祝小兰,杨东晓.基于深度学习的疫情情感分析[J].智能计算机与应用,2022,12(3):40-45. 被引量：1
8陈艳君,周欣,卿粼波,王正勇.基于多头注意机制的用户评论情感可视分析[J].智能计算机与应用,2020(8):33-36.
9李秀茹,王晓,李朋朋,李绪红,罗安.Word2vec和支持向量机的POI自动分类方法[J].测绘科学,2022,47(6):195-203. 被引量：5
10刘文倩,杨文川.基于深度学习的高效模糊测试技术研究[J].中国科技论文在线精品论文,2021(2):160-167.

1朱蓉.基于语义信息的图像理解关键问题研究[J].计算机应用研究,2009,26(4):1234-1240. 被引量：6
2包长春,徐为群,李亚丽,潘接林,颜永红.利用领域信息的基于字的鲁棒中文口语理解研究[J].微计算机应用,2010,31(6):1-7. 被引量：1

计算机研究与发展

2016年第2期

浏览历史

内容加载中请稍等...

短文本理解研究被引量：50

参考文献34

同被引文献212

引证文献50

二级引证文献531

相关作者

相关机构

相关主题

浏览历史

短文本理解研究 被引量：50

参考文献34

同被引文献212

引证文献50

二级引证文献531

相关作者

相关机构

相关主题

浏览历史

短文本理解研究被引量：50