基于共享背景主题的Labeled LDA模型被引量：17

Labeled LDA Model Based on Shared Background Topics

下载PDF

导出

摘要隐藏狄利克雷分配(Latent Dirichlet Allocation,LDA)模型被广泛应用于文本分析、图像识别等领域.但由于LDA及其扩展模型多为无监督学习模型,无法将其应用于分类任务中.本文通过研究文档标记与LDA模型中主题的映射关系,提出一种新的Labeled LDA模型(Shared Background Topics Labeled LDA,SBTL-LDA).在SBTL-LDA模型中每个标记除了存在若干个独享的局部主题外,还存在若干个共享的背景(Background)主题,这样可以有效分析不同标记所含主题之间的依赖关系,而文档标记被映射为局部主题和共享主题的组合,因此SBTL-LDA模型可以有效提升文档标记判别的准确性.同时SBTL-LDA模型还可以看成是一种半监督聚类模型,在对文档进行聚类分析的过程中模型可以有效的利用文档的标记信息提升文档聚类效果.实验证明SBTL-LDA模型能够有效解决PLDA模型中主题之间的相似性和依赖关系,具有良好的多标记判别能力,并且具有优于LDA、PLDA模型的文档聚类效果. LDA （Latent Dirichiet Allocation） is widely used in text analysis and images processing. However, LDA and most of its modifications are unsupervised learning models, which are not appropriate for classification especially multi-label classification problem. Through the study on the multi-label documents and LDA models, this paper proposes a new Labeled LDA model, namely Shared Background Topics Labeled LDA （SBTL-LDA） . In this new model, each label has not only a set of local topics, but also has several background （global） topics. Experienmental results show that SBTL-LDA can decrease the affect of similarities and de- pendence between different topics and because the label of document is mapped as a combination of local topics and shared topics, so it has a high accuracy when learning from multi-labeled documents.In addition,this model can be viewed as a semi-supervised clustering model which can utilize the information of labels and outperfom other models.

作者江雨燕李平王清

机构地区安徽工业大学管理科学与工程学院

出处《电子学报》 EI CAS CSCD 北大核心 2013年第9期1794-1799,共6页 Acta Electronica Sinica

基金国家自然科学基金(No.71172219) 安徽省自然科学研究项目省级重点项目(No.KJ2011Z039 No.KJ2013A053)

关键词隐藏狄利克雷分配文本分析多标记学习半监督聚类 latent Dirichlet allocation text analysis multi-label learning semi-supervised clustering

分类号 TN911.23 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献16

1王李冬,魏宝刚,袁杰.基于概率主题模型的文档聚类[J].电子学报,2012,40(11):2346-2350. 被引量：24
2吴永辉,王晓龙,丁宇新,徐军,郭鸿志.基于主题的自适应、在线网络热点发现方法及新闻推荐系统[J].电子学报,2010,38(11):2620-2624. 被引量：29
3Blei D M,Ng A Y,Jordan M I. Latent Dirichlet allocationJ J}. Machine Learning Research,2003,3:993 - 1022.
4LaffertyJ D, Blei MD. Correlated topic models[AJ . Advances in Neural. Information Processing Systems, Proceedings of the 200'5 Cooferencel C]. Vancouver: Bradford Books,2IDU47 -155.
5u W,McCallmn A.Pachinko allocation:DAG-structured mix?ture models of topic correlations[AJ . Proceedings of the 23rd International Conference on Machine Learningj C] . New York: ACM,2006.577 - 584.
6D M Blei.J McAuliffe. Supervised topic modelsl A] . Advances in Neural Information Processing System[CJ. Vancouver, British Colmnbia Canada:Curran,2008.121- 128.
7Ramage D, Hall D, Nallapati R, et al. Labeled IDA: A super?vised topic model for credit attribution in multi-labeled corpora[AJ. Proceedings of the 2009 Conference on Empirical Meth?ods in Natural Language Processing Association for Computa?tional linguistics[CJ . Singapore: Springer, 2009 . 248 - 256.
8Ramage D ,Manning CD, Dumais S. Partially labeled topic models for interpretable text mining[A]. Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining[cJ . New York:ACM,2011.457 -465.
9Hofmann T. Probabilistic latent semantic analysis[AJ . Proceedings of the FIfteenth Conference on Uncertainty in Artificial Intelli?gence[CJ . Morgan Kaufmann, San Mateo, CA: Morgan Kaufmann Publishers Inc, 1999.289 - 2%.
10Minka T, Lafferty 1. Expectation-propagation for the genera?tive aspect model[AJ . Proceedings of the Eighteenth Confer?ence on Uncertainty in Artificial Intelligence[CJ . Morgan Kaufmann, San Mateo, CA: Morgan Kaufinann Publishers Inc, 2002 . 352 - 359.

二级参考文献25

1孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
2Hafri Y,Djeraba C.High performance crawling system.In:Proc.of the 6th ACM SIGMM Int'1 Workshop on Multimedia Information Retrieval.New York:ACM Press,2004.299-360.
3A Heydon,M Najork.Mercator:a scalable,extensible web crawler.International conference on World Wide Web.New York:ACM Press,1999.219-229.
4Yan HF,Wang JY,Li XM,Guo L.Architectural design and evaluation of an efficient Web-crawling sysgem[J].Journal of Systems and Software.2002,60(3):185-193.
5J Edwards,K McCurl,J Tomin.An adaptive model for optimizing performance of an incremental web crawler.International conference on World Wide Web.New York:ACM Press,2001.106-113.
6J Cho,H Garcia-Molina.Effective page refresh policies for web crawlers.ACM Transactions on Database Systems.New York:ACM Press,2003.390-426.
7Page L,Brin S,Motwani R.The PageRank Citation Ranking:Bring Oreder to the Web.Technical report,1998.
8Feng G,Liu TY,Wang Y,et al.AggregateRank:bring order to web sites.Proceedings of the 29th annual international ACM SIGIR conference.New York:ACM Press,2006.75-82.
9J Allan,J Carbonell,G Doddington.et al.Topic detection and tracking pilot study:Final report.In Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop.San Fransisco:Morgan Kaufmann Press Ltd,1999.194-218.
10D M Blei,A Y Ng,M I Jordan.Latent dirichlet allocation[J].J.Mach.Learn.Res.,2003,3(5):993-1022.

共引文献49

1王立才,孟祥武,张玉洁.移动网络服务中基于认知心理学的用户偏好提取方法[J].电子学报,2011,39(11):2547-2553. 被引量：34
2刘厚良.网络协同戏剧中个性化戏剧资源推荐系统[J].计算机技术与发展,2012,22(8):25-29.
3张引,张斌,高克宁,郭朋伟,孙达明.面向自主意识的标签个性化推荐方法研究[J].电子学报,2012,40(12):2353-2359. 被引量：8
4黄世平,黄晋,陈健,汤庸.自动建立信任的防攻击推荐算法研究[J].电子学报,2013,41(2):382-387. 被引量：5
5王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：21
6谢思发,林琛,苏旋,江弋.Hadoop平台的微博热点事件挖掘[J].小型微型计算机系统,2014,35(4):797-801. 被引量：4
7李湘东,巴志超,黄莉.基于加权隐含狄利克雷分配模型的新闻话题挖掘方法[J].计算机应用,2014,34(5):1354-1359. 被引量：14
8崔君君,于林森,李鹏.协同视觉信息与标注信息图像聚类[J].哈尔滨理工大学学报,2014,19(2):57-62. 被引量：3
9韩忠明,陈妮,张慧,杨伟杰.一种非对称距离下的层次聚类算法[J].模式识别与人工智能,2014,27(5):410-416. 被引量：11
10刘胜宗,廖志芳,胡佳,樊晓平.基于隐反馈的类时齐 Markov 推荐模型[J].电子学报,2014,42(4):703-710. 被引量：1

同被引文献182

1赵宏伟,陈霄,龙曼丽,袁世培.基于改进PLSA分类器的目标分类算法[J].吉林大学学报（工学版）,2012,42(S1):231-235. 被引量：2
2姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
3侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
4陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：22
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
6刘群李素建.基于《知网》的词汇语义相似度计算[C]..第三界汉语词汇语义研讨会[C].台北,2002..
7Donoho D L.Compressed sensingIEEE Transactions on In- formation Theory,2006.
8Blei D M,Lafferty J D.Dynamic topic models[C]∥Proceedings of the 23rd International Conference on Machine Learning.New York,USA:ACM,2006:113-120.
9Chong Wang,Bo T,Christopher M,et al.Markov Topic Models[C]∥Proceedings of the 12th International Conference on Artificial Intelligence and Statistics.Clearwater Beach,USA,2009:583-590.
10Blei D,McAuliffe J.Supervised topic models[C]∥Advances in Neural Information Processing Systems(NIPS).Vancouver,Canada,2008.

引证文献17

1余文利,余建军,方建文.混合属性数据k-prototypes聚类算法[J].计算机系统应用,2015,24(6):168-172. 被引量：3
2石林宾,余正涛,严馨,宋海霞,洪旭东.基于半监督图聚类的项目主题模型构建方法[J].计算机科学,2015,42(5):119-123. 被引量：1
3田刚,何克清,王健,孙承爱,徐建建.面向领域标签辅助的服务聚类方法[J].电子学报,2015,43(7):1266-1274. 被引量：30
4李卫平,杨杰,王钢.多变参pLSI文本敏感特征抽取算法[J].计算机应用研究,2015,32(9):2587-2589. 被引量：2
5邢国正,江雨燕,吴超,李常训.一种半监督重复软最大化模型[J].计算机工程,2015,41(9):209-214.
6欧阳继红,刘燕辉,李熙铭,周晓堂.基于LDA的多粒度主题情感混合模型[J].电子学报,2015,43(9):1875-1880. 被引量：23
7张膂.基于LPAL模型的超文本分析[J].微型电脑应用,2016,32(3):77-80. 被引量：1
8李博,陈志刚,黄瑞,郑祥云.基于LDA模型的音乐推荐算法[J].计算机工程,2016,42(6):175-179. 被引量：15
9马宁,陶亮.基于多特征融合的室内场景识别[J].控制工程,2016,23(11):1845-1850. 被引量：7
10周孟,朱福喜.基于情感标签的极性分类[J].电子学报,2017,45(4):1018-1024. 被引量：4

二级引证文献139

1陈济榕.300MW、600MW引进型切向燃烧锅炉温度偏差研究综述[J].锅炉技术,2000,31(3):1-5. 被引量：6
2赵一,李昭,陈鹏,何泾沙,何克清.一种面向领域的Web服务语义聚类方法[J].小型微型计算机系统,2019,40(1):81-88. 被引量：5
3周梁,方兴龙.基于商品评论主题模型的隐含狄利克雷分布研究[J].安徽工程大学学报,2019,34(1):78-84.
4郑杰.舰载网络中未知协议识别方法研究与仿真[J].舰船科学技术,2015,37(9):166-170.
5耿德志.基于聚类权重调度的大数据采样技术[J].世界有色金属,2015,40(12):93-95.
6周小榛,邹美蓉.嵌入式冶金系统下数据结构优化存储设计[J].世界有色金属,2015,40(12):124-126.
7刘炜.基于线性调频盲卷积的大数据聚类控制方法[J].电力与能源,2015,36(6):822-825.
8陈志椿.基于时频熵的放电脉冲取特征提取算法[J].电力与能源,2015,36(6):826-830.
9陈红玉,孟彩霞.基于相干函数无偏估计的数据恢复技术[J].科技通报,2016,32(3):105-108. 被引量：4
10雷宁.NTP授时设备的IRIG-B码编码算法[J].计算机与网络,2016,42(3):96-98.

1A.沃杰塔基威茨,徐俊.用狄利克雷变换进行参差采样和MTI滤波器的频域分析[J].雷达与对抗,1990(2):51-56.
2李苹苹,孙钢灿,申金媛,赵海东.基于改进的半监督聚类的MQAM信号调制识别[J].电视技术,2014,38(11):112-115. 被引量：2
3孙刚灿,李苹苹,申金媛,赵海东.基于半监督聚类理论的MQAM信号的调制识别[J].郑州大学学报（工学版）,2014,35(4):83-87. 被引量：1
4李苹苹,孙钢灿,申金媛,刘润洁.基于半监督聚类理论的MQAM信号的盲识别[J].青岛科技大学学报（自然科学版）,2014,35(4):405-409. 被引量：1
5邹友辉,郭春生.基于HMM和LDA级联的视频异常检测[J].杭州电子科技大学学报（自然科学版）,2013,33(2):13-16. 被引量：1
6徐美瑞,刘小林.A VLSI Algorithm for Calculating the Tree to Tree Distance[J].Journal of Computer Science & Technology,1993,8(1):68-76.
7汤琼,廖泽广.一种基于AP算法的半监督聚类方法[J].电子信息对抗技术,2017,32(1):8-12. 被引量：1
8李永忠,张杰.一种基于云模型和半监督聚类的入侵检测算法[J].电子测量与仪器学报,2014,28(12):1376-1381. 被引量：9
9张银龙,楼建东,杜峰,欧阳凯.利用加载技术设计对数周期天线及其结果分析[J].信息工程大学学报,2010,11(4):411-414. 被引量：2
10李凌,杨华,樊亚文,郑世宝.基于自适应量化LDA模型的视频场景分类算法[J].电视技术,2012,36(11):121-124.

电子学报

2013年第9期

浏览历史

内容加载中请稍等...

基于共享背景主题的Labeled LDA模型被引量：17

参考文献16

二级参考文献25

共引文献49

同被引文献182

引证文献17

二级引证文献139

相关作者

相关机构

相关主题

浏览历史

基于共享背景主题的Labeled LDA模型 被引量：17

参考文献16

二级参考文献25

共引文献49

同被引文献182

引证文献17

二级引证文献139

相关作者

相关机构

相关主题

浏览历史

基于共享背景主题的Labeled LDA模型被引量：17