基于多维尺度模型的潜在主题可视化研究被引量：5

A Research on Visualization of Underlying Topics Based on MDS Model

下载PDF

导出

摘要数据库内容结构分析把共词分析方法应用于全文主题发现，但事先选定种子词和统计共现次数等步骤导致该方法会遗漏很多重要的词汇组合和潜在主题。本文提出使用词汇集聚理论作为潜在主题可视化的理论基础，跳过事先选定种子词和统计共现矩阵的步骤，把词条表示在转置的向量空间中，通过多维尺度模型（MDS）算法把词条在转置向量空间中的邻近关系投影到三维空间图上，通过词汇的空间聚类来发现和表示潜在主题；引入数据编码的方法来克服MDS可视空间容量的局限，并设计了邻近矩阵、质心邻近矩阵、属性叠加邻近矩阵及三个层次的方法流程。最后，成功地将三个层次的潜在主题可视化的方法流程应用于计算机应用服务业上市公司的风险识别。 Database Tomography analysis applied term co-occurrence method to discover topics in full texts. But it may miss lots of content and topics in the original text set because of its procedure of co-occurrence frequency statistic and pre-selection of seed term. This paper propose to regard lexical cohesion as theoretical basis of underlying topics visualization, skipping the steps of co-occurrence frequency statistic and pre-selection of seed term, to present terms in transposed vector space, to map the proximity of terms in transposed vector space to visual space by Multi-Dimensional Scale （MDS） algorithm, and to discover and present topics by spatial clustering of related terms. Data coding method was introduced to overcome the limitations of MDS visual space area. Terms proximity matrix, centroid proximity matrix, attribute accumulative proximity matrix and according method procedures were developed to construct a three layers method system. Method of underlying topics visualization was successfully applied to do risk identification for public companies of computer application services, using verbal content about risk factor in prospectus as texts collection.

作者赵一鸣张进黎苑楚

机构地区武汉大学信息资源研究中心美国威斯康辛大学密尔沃基分校信息研究学院湖北省科技厅

出处《情报学报》 CSSCI 北大核心 2014年第1期45-54,共10页 Journal of the China Society for Scientific and Technical Information

基金国家建设高水平大学公派研究生项目(留金发[2011]3005) 国家自然科学基金(71173249)

关键词潜在主题可视化多维尺度模型数据编码 underlying topics, visualization, multidimensional scaling, data coding

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1张勤,马费成.国外知识管理研究范式——以共词分析为方法[J].管理科学学报,2007,10(6):65-75. 被引量：484
2王小华,徐宁,谌志群.基于共词分析的文本主题词聚类与主题发现[J].情报科学,2011,29(11):1621-1624. 被引量：34
3卢小宾,孟玺,张进.基于词共现的社会化标签研究热点可视化分析[J].情报学报,2012,31(2):204-212. 被引量：6
4安璐,李纲.基于自组织映射的期刊主题可视化组织[J].情报学报,2011,30(2):183-191. 被引量：3
5Kostoff R N. Database tomography:multidisciplinary research thrusts from co-word analysis[A].1991.
6Kostoff R N,Toothman D,Eberhart H. Text mining using database tomography and bibliometrics:A review[J].{H}Technological Forecasting & Social Change,2001,(68):223-252.
7Blei D M,Lafferty J D. Visualizing topics with multi-word expressions[J].2009.
8Swanson D R. Fish oil,Raynaud'S syndrome and undiscovered public knowledge[J].{H}Perspectives in Biology and Medicine,1986,(01):7-11.
9Halliday M A K,Hasan R. Cohesion in English[M].Longman:Addison-Wesley Longman Ltd,1976.1-28.
10姚天顺;朱靖波.自然语言理解[M]{H}北京:清华大学出版社,2002134.

二级参考文献76

1张晗,崔雷.运用共词聚类分析法研究生物信息学的学科热点[J].医学情报工作,2004,25(5):327-330. 被引量：46
2刘林青.范式可视化与共被引分析：以战略管理研究领域为例[J].情报学报,2005,24(1):20-25. 被引量：40
3袁里驰,钟义信.基于相似度的词聚类算法[J].微电子学与计算机,2005,22(8):93-95. 被引量：4
4崔雷.专题文献高频主题词的共词聚类分析[J].情报理论与实践,1996,19(4):49-51. 被引量：149
5刘高勇,汪会玲.基于SOM的超文本自动生成算法[J].情报科学,2007,25(6):929-931. 被引量：1
6薛薇.SPSS统计分析方法及应用[M].北京:电子工业出版社,2009:330.
7Kohonen T Things you haven't heard about the Self-Organizing Map 1993
8Laboratory of Computer and Information Science SOM_norm_variable (2002) 2008
9Freeman R T;Yin H Adaptive topological tree structure for document organization and visualization [外文期刊] 2004(8/9) DOI:10.1016/j.neunet.2004.08.006
10Ultsch A Maps for the Visualization of high-dimensional Data Spaces 2003

共引文献521

1李志河,张春雨,李思哲,杨玉霞.我国社科领域深度学习研究热点分析——基于CNKI文献的计量可视化分析[J].中国教育技术装备,2021(2):6-11.
2毛艾琳,宋璟萱.英、美两国在突发公共卫生事件冲击下健康战略重点转移及启示[J].中国公共卫生,2023,39(11):1507-1512.
3张荣俊,陈涛,阮敏.基于共词分析法的国内精准营销研究热点探析[J].中国发展,2021,21(3):58-65. 被引量：2
4潘杰宁,李国军.我国增值性评价研究的特征与展望[J].山西财经大学学报,2023,45(S01):79-81. 被引量：2
5唐泽君,张维.我国近20年高中生物学课程研究热点构成及展望——基于关键词知识图谱分析[J].中学生物教学,2022(14):41-44. 被引量：2
6杨萌,薛海平,高翔.改革开放四十年来我国基础教育课外补习研究回顾与展望——基于CiteSpace的可视化分析[J].教育经济评论,2020,5(1):50-67. 被引量：11
7朱浩.供应链金融研究热点主题与演化路径分析——基于CNKI的文献统计[J].上海立信会计金融学院学报,2020,32(3):16-29. 被引量：2
8翟柱玉,陈垚彤,顾伟忠.我国全要素生产率研究的内容、方法与趋势——基于文献分析视角[J].价格理论与实践,2019(11):82-85. 被引量：5
9韩骁.我国正当防卫研究的网络知识结构与核心脉络[J].法大研究生,2019(2):100-119.
10Chunhui Tan,Mengyuan Xiong.Contrastive analysis in China and abroad on the Evolution of hot topics in the field of digital library based on LDA model[J].Data Science and Informetrics,2021,1(2):110-130. 被引量：1

同被引文献83

1谭欣,王琦.关于大学生心理健康调查的报告[J].教育科学,1996(2):37-40. 被引量：14
2赵红洲,蒋国华.知识单元与指数规律[J].科学学与科学技术管理,1984,5(9):39-41. 被引量：62
3陈玉祥,朱桂龙,陈德棉.科学发展预测的概念和功能[J].预测,1994,13(1):57-61. 被引量：1
4陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149-154. 被引量：823
5骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
6Fox S. The social life of health information, 2011 [ EB/OL]. [ 2014 - 06 - 20]. http ://www. pewinternet, org/2011/05/12/ the - social - life - of - health - information - 2011/.
7Arden M A, Duxbury A M S, Soltani H. Responses to gestational weight management guidance: A thematic analysis of comments made by women in online parenting forums[ J/OL]. [2015 -03 - 10 ]. http ://www. biomedcentral, com/1471 - 2393/14/216.
8Coulson N S. Sharing, supporting and sobriety: A qualitative anal- ysis of messages posted to alcohol - related online discussion fo- rums in the United Kingdom [ J ]. Journal of Substance Use, 2014, 19(1 -2) : 176 -180.
9Attard A, Coulson N S. A thematic analysis of patient communica- tion in Parkinson' s disease online support group discussion forums [J]. Computers in Human Behavior, 2012, 28(2) : 500 -506.
10Rodgers S, Chen Qimei. Intemet community group participation: Psychosocial benefits for women with breast cancer[ J/OL]. [ 2015 -03 - 10 ]. http://onlinelibrary, wiley, com/doi/10. 1111/j. 1083 - 6101. 2005. tb00268, x/full.

引证文献5

1金碧漪,许鑫.社会化问答社区中糖尿病健康信息的需求分析[J].中华医学图书情报杂志,2014,23(12):37-42. 被引量：36
2金碧漪,许鑫.网络健康社区中的主题特征研究[J].图书情报工作,2015,59(12):100-105. 被引量：48
3郭传斌,刘琦岩,赵婧,袁嘉莲,李明倩,望俊成.情报学视角下的文本可视化应用[J].情报工程,2017,3(4):48-61. 被引量：2
4任倩倩.大学生心理健康调查问卷数据管理问题及对策——基于可视化工具应用视角[J].科教导刊（电子版）,2019,0(12):47-47.
5梁继文,杨建林,王伟.知识单元重组视角下的科学主题预测研究[J].情报学报,2023,42(5):511-524. 被引量：4

二级引证文献83

1胡哲,查先进,严亚兰.突发事件情境下在线健康社区用户交互行为研究[J].数据分析与知识发现,2019,3(12):10-20. 被引量：10
2王煜,魏理,姜顺军.医患问答社区热点主题分析研究[J].医学信息学杂志,2018,39(11):2-8. 被引量：3
3李贺,祝琳琳,闫敏,刘金承,洪闯.开放式创新社区用户信息有用性识别研究[J].数据分析与知识发现,2018,2(12):12-22. 被引量：8
4李颖,杨伟娜,李媛.数字环境下城乡青年健康信息搜寻行为研究[J].图书情报工作,2016,60(12):115-123. 被引量：53
5邓胜利,刘瑾.基于文本挖掘的问答社区健康信息行为研究——以“百度知道”为例[J].信息资源管理学报,2016,6(3):25-33. 被引量：39
6李重阳,翟姗姗,郑路.网络健康社区信息需求特征测度——基于时间和主题视角的实证分析[J].数字图书馆论坛,2016(9):34-42. 被引量：34
7刘璇,汪林威,李嘉,张朋柱.在线健康社区中用户回帖行为影响机理研究[J].管理科学,2017,30(1):62-72. 被引量：46
8翟羽佳,张鑫,王芳.在线健康社区中的用户参与行为——以“百度戒烟吧”为例[J].图书情报工作,2017,61(7):75-82. 被引量：38
9袁湘萍.健康管理人群空腹血糖与单核细胞水平的相关性分析[J].公共卫生与预防医学,2017,28(3):96-98.
10姚占雷,李丹,许鑫.在线问诊环境下健康信息运动研究——从健康信息诉求到健康知识重用[J].情报资料工作,2017,38(5):91-98. 被引量：3

1<中国购物中心发展战略研究>课题组,李琪,彭晖.购物中心理论研究文献综述[J].商场现代化,2008(26):26-27. 被引量：2
2陈培雄.产权市场的边界[J].上海国资,2009(8):66-67.
3云端空间大战存储无限量[J].数码世界,2014(1):128-137.
4李贤金,谢红彬.从产业集聚理论看旅游宾馆的(微观)选址策略——以福州市为例[J].东南传播,2006,0(6):75-77. 被引量：5
5李盈霖.基于集聚理论的购物中心内涵及其开发机制[J].商业时代,2007(25):17-18. 被引量：3
6段现蓉,赵捧未.基于共引与共词分析的国内移动商务核心知识与热点识别[J].情报科学,2016,34(12):64-69. 被引量：12
7刘北辰.独具魅力的德国橱窗广告[J].中国包装,2006,26(1):48-48. 被引量：1
8天津环贸商务中心商场[J].世界建筑导报,2009(6):46-49.
9成功参展的十二条“秘诀”[J].农村养殖技术,2003(18):25-25.
10王佳蕾.从商务模式创新看企业经营[J].现代商业,2007(26):150-152.

情报学报

2014年第1期

浏览历史

内容加载中请稍等...

基于多维尺度模型的潜在主题可视化研究被引量：5

参考文献15

二级参考文献76

共引文献521

同被引文献83

引证文献5

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

基于多维尺度模型的潜在主题可视化研究 被引量：5

参考文献15

二级参考文献76

共引文献521

同被引文献83

引证文献5

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

基于多维尺度模型的潜在主题可视化研究被引量：5