期刊文献+

基于三元组文档表示的文本分类 被引量:1

Triple-based document representation for text classification
下载PDF
导出
摘要 为解决现有文档表示方法中不包含结构特征以及难以融入外部知识的问题,提出基于三元组的文档表示方法,并结合分布式向量语义表示。基于三元组的文档表示方法的另一个优势是可以非常方便地融入词向量特征,扩展三元组的语义表示。该方法在完全相同且不使用外部知识的实验设置下,能显著提升文本分类的性能;当词向量特征被利用后,文本分类性能增强了约0.8%;当融入自动抽取的外部背景三元组知识后,进一步带来了1.2%的性能提升。 To solve the two problems that no structural information is included and it is difficult to integrate external information with the representation in existing document representation methods,triples were exploited to represent documentations,meanwhile distributional semantics were fully exploited.Additionally,the proposed method easily enhanced external word embeddings.Experimental results show that the proposed method can outperform word-and topic-based baselines significantly for text classification using the same setting without external information.The enhanced word representation with word embeddings can bring an improvement close to 0.8%for text classification.When external information of automatic triples is exploited,the proposed method can get a further improvement by 1.2%for text classification.
作者 冯雪 FENG Xue(Computer School,Beijing Information Science and Technology University,Beijing 100192,China)
出处 《计算机工程与设计》 北大核心 2019年第2期394-398,共5页 Computer Engineering and Design
基金 CCF中文信息技术开放基金项目(CCF2014-02-02)
关键词 文档表示 文本分类 分布式语义 三元组 外部知识 document representation text classification distributional semantics triple external information
  • 相关文献

参考文献7

二级参考文献121

共引文献579

同被引文献24

引证文献1

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部