利用图结构进行半监督学习的短文本分类研究被引量：1

Research on Short Text Classification Based on Semi-supervised Learning by Graph Structure

导出

摘要为了解决基于向量空间模型构建短文本分类器时造成的文本结构信息的缺失以及大量样本存在的标注瓶颈问题,提出一种基于图结构的半监督学习分类方法,这种方法既能保留短文本的结构语义关系,又能实现未标注样本的充分利用,提高分类器的性能。通过引入半监督学习的思想,将数量规模较大的未标注样本与少量已标注样本相结合进行基于图结构的自训练学习,不断迭代实现训练样本集的扩充,从而构建最终短文本分类器。经对比实验证明,这种方法能够获得较好的分类效果。 In order to resolve the problems of the lack of text structure and semantic information in the vector space model and the bottleneck problem of annotation in dealing with large numbers of unlabeled samples, this paper introduces a method of short texts classification based on semi-supervised learning. It is feasible to maintain the relationship between samples and can also make full use of the unlabeled parts to improve the performance of the classifier. It is a self-training algorithm that connects the large numbers of unlabeled parts and the labeled together to learn based on graph structure, so that the training samples can be enlarged and used to build the final text classifier. The contrast experiment shows that the algorithm of short text classification based on semi-supervised learning can get better classified effect.

作者张倩刘怀亮

机构地区西安电子科技大学经济与管理学院

出处《图书情报工作》 CSSCI 北大核心 2013年第21期126-132,共7页 Library and Information Service

关键词半监督学习短文本图结构自训练 semi-supervised learning short text graph structure self-training

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1吴江宁,刘巧凤.基于图结构的中文文本表示方法研究[J].情报学报,2010,29(4):618-624. 被引量：14
2吴江宁,刘巧凤.基于最大公共子图的文本相似度算法研究[J].情报学报,2010,29(5):785-791. 被引量：8
3侯翠琴,焦李成.基于图的Co-Training网页分类[J].电子学报,2009,37(10):2173-2180. 被引量：9
4钟茂生,刘慧,刘磊.词汇间语义相关关系量化计算方法[J].中文信息学报,2009,23(2):115-122. 被引量：21
5张晓孪,王西锋.基于概念图的汉语语义计算的研究与实现[J].计算机工程与应用,2011,47(10):120-123. 被引量：10
6张博锋,白冰,苏金树.基于自训练EM算法的半监督文本分类[J].国防科技大学学报,2007,29(6):65-69. 被引量：17
7韩红旗,朱东华,刘嵩,汪雪锋.关联词约束的半监督文本分类方法[J].计算机工程与应用,2010,46(4):113-116. 被引量：3
8宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145. 被引量：41
9郑海清,林琛,牛军钰.一种基于紧密度的半监督文本分类方法[J].中文信息学报,2007,21(3):54-60. 被引量：11
10周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17

二级参考文献105

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
3周昭涛,卜东波,程学旗.文本的图表示初探[J].中文信息学报,2005,19(2):36-43. 被引量：17
4樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
5章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
6于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
7姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
8苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
9张晓孪,张蕾,王西锋.基于知识图的汉语词语间语义相似度计算[J].计算机工程与应用,2007,43(8):160-163. 被引量：3
10李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106

共引文献133

1贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
2伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
3汤世平,樊孝忠,朱建勇.基于潜在语义分析的本体空间表示模型研究[J].计算机应用与软件,2008,25(1):53-55.
4史旗凯,郭菊娥.基于管理问题信息抽取的主题识别研究[J].情报科学,2008,26(10):1558-1562.
5史旗凯,郭菊娥,马续补,叶金凤.基于SMA信息抽取的事实主题的识别研究[J].情报学报,2009,28(1):82-87. 被引量：1
6朱红斌,蔡郁.基于主动学习支持向量机的文本分类[J].计算机工程与应用,2009,45(2):134-136. 被引量：12
7范新,沈闻,丁泉勋,沈洁.基于正例和未标文档的半监督分类研究[J].计算机技术与发展,2009,19(6):58-60.
8梁吉业,高嘉伟,常瑜.半监督学习研究进展[J].山西大学学报（自然科学版）,2009,32(4):528-534. 被引量：32
9卢加磊,朱世华,丁香乾,黄跃华.基于Co-training的烟草原料数据优化分析[J].计算机与现代化,2010(2):176-179.
10史旗凯,郭菊娥.基于SMA信息抽取的主题诊断研究[J].管理工程学报,2010,24(1):90-94.

同被引文献2

1许敏,王士同,顾鑫.TL-SVM:一种迁移学习算法[J].控制与决策,2014,29(1):141-146. 被引量：14
2庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：471

引证文献1

1谭建平,刘波,肖燕珊.基于半监督的SVM迁移学习文本分类算法[J].无线互联科技,2016,13(4):71-75. 被引量：3

二级引证文献3

1王军,刘三民,刘涛.面向概念漂移的数据流分类研究分析[J].绵阳师范学院学报,2017,36(5):80-89.
2张松清,刘智国.一种基于半监督学习的工控网络入侵检测方法[J].信息技术与网络安全,2018,37(1):44-47. 被引量：3
3王惠.迁移学习研究综述[J].电脑知识与技术（过刊）,2017,23(11X):203-205. 被引量：19

1张彰,樊孝忠.一种改进的基于VSM的文本分类算法[J].计算机工程与设计,2006,27(21):4078-4080. 被引量：8
2白名.2．1亿的疑问与诱惑[J].大众软件,2008(5):18-20.
3马福平.中国动画电影市场遇到鸡与蛋的困境[J].文化月刊（下旬刊）,2014,0(10):118-119.
4吴天舒,陈蜀宇,张涵翠,周真.基于检测域划分的虚拟机异常检测算法[J].计算机应用,2016,36(4):1066-1069.
5张维,苗夺谦,高灿,李峰.基于粗糙集成学习的半监督属性约简[J].小型微型计算机系统,2016,37(12):2727-2732. 被引量：6
6黎隽男,吕佳.结合主动学习与置信度投票的集成自训练方法[J].计算机工程与应用,2016,52(20):167-171. 被引量：8
7廖晓威,马利庄,王彦.ES-ID3算法及其在中医辨症中的应用[J].计算机工程与应用,2008,44(32):191-193. 被引量：6
8李芳,盛焕烨.双语词汇自动获取系统[J].上海交通大学学报,2001,35(9):1386-1389.
9万丽.论办公自动化环境下的电子文件[J].治黄科技信息,2014(3):30-31.
10张海龙,淦文燕,陈刚,姜博.基于词共现网络的海量文本分析与热点话题发现[J].计算机与数字工程,2015,43(10):1729-1735. 被引量：10

图书情报工作

2013年第21期

浏览历史

内容加载中请稍等...

利用图结构进行半监督学习的短文本分类研究被引量：1

参考文献10

二级参考文献105

共引文献133

同被引文献2

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

利用图结构进行半监督学习的短文本分类研究 被引量：1

参考文献10

二级参考文献105

共引文献133

同被引文献2

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

利用图结构进行半监督学习的短文本分类研究被引量：1