主题模型在基于社交媒体的灾害分类中的应用及比较被引量：14

Application and Comparison of Topic Model in Identifying Latent Topics from Disaster-Related Tweets

导出

摘要 “一带一路”沿线为自然灾害高发地区,且多为经济欠发达、抗灾能力弱的发展中国家。灾害发生时,挖掘和分析相关推特数据有助于开展应急救援、灾情评估、减灾防灾等工作,为中国国际救援与救助工作提供重要支撑。主题模型能在没有经验语料库的情况下,从海量灾害相关推文中快速聚合出对灾害救援、评估有价值的信息。本文采用BTM模型和LDA模型,对2013年海燕台风相关推文进行细粒度的主题聚类,分析2个模型的精度并测试它们对近似灾害主题的区分能力,并基于“需求相关”主题类的推文,通过地名匹配,分析了海燕台风发生过程中菲律宾物资、医疗等需求程度的空间分布。结果表明:①在区分主题近似的短文本时,BTM总体精度为0.598.LDA的总体精度仅为0.321,说明在海燕台风灾害推文的主题识别中,BTM模型的精度高于LDA模型;②BTM能够较好识别出“灾害地点相关”、“祈福相关”等较为精细的灾害主题;③经初步验证,基于“需求相关”主题文本生成的物资、医疗等需求的需求程度空间分布与实际需求情况基本相符。 From 1990 to 2010,the occurrence of natural disasters was increasing in countries along the "One Belt and One Road" where most countries are developing countries with underdeveloped economy and weak disaster resistance.When disasters happen,people in those countries will tweet about the disasters in real time.The tweets contain important information for emergency rescue,disaster assessment,disaster reduction and prevention,etc.Therefore,mining and analyzing relevant tweets can provide powerful support for China's international rescue and relief work.However,twitter data is fragmented and unstructured,and the number of topics that tweets contain are huge and miscellaneous.Therefore,how to rapidly screen out relevant information from tweets becomes a research challenge.Without empirical corpus,topic model can rapidly aggregate information from a large number of disaster-related tweets,which are valuable for disaster relief and assessment.In this paper,the BTM model and LDA model,that are widely used in the study of natural language processing,were adopted to cluster Haiyan typhoon-related tweets at fine granularity topics.Then we verified and compared the accuracy of two models,and tested their ability to distinguish similar disaster topics.In addition,based on the "demand-related" tweets obtained from topic categorization,through place-name matching,we analyzed the spatial distribution of demand degree of materials and medical care in the Philippines during the occurrence of Haiyan typhoon.The result shows that:(1) In classifying Haiyan typhoon-related tweets at fine granularity topics,the overall accuracy of BTM was 0.598.while that of LDA was only 0.321,indicating that BTM can outperform LDA.(2) The Fl-measure values of BTM in "disaster location-related” and "blessing-related" tweets were 0.8 and 0.78,indicating that BTM can better identify tweets of those two topics.(3) After preliminary verification,the spatial distribution of material and medical needs generated based on "demand-related" tweets was basically consistent with the actual demand.Our findings can help quickly obtain first-hand disaster information from twitter when China lacks relevant data of disasters occurring in the "One Belt and One Road" region,so to provide data support for China's international rescue work.Besides,our methodology can be used for studying domestic microblog in disasters.

作者苏凯程昌秀 Nikita Murzintcev 张婷 SU Kai;CHENG Changxiu;Nikita Murzintcev;ZHANG Ting(Center for Geodata and Analysis,Faculty of Geographical Science,Beijing Normal University,Beijing 100875,China;Instituteof Geographic Sciences and Natural Resources Research,Chinese Academy of Sciences,Beijing 100101,China)

机构地区北京师范大学地理科学学部中国科学院地理科学与资源研究所

出处《地球信息科学学报》 CSCD 北大核心 2019年第8期1152-1160,共9页 Journal of Geo-information Science

基金国家重点研发计划项目(2017YFB0504102) 中央高校基本科研业务费专项资金资助~~

关键词主题模型 BTM LDA 推文主题分类自然灾害应急管理 Topic model BTM LDA Tweet Topic categorization Natural hazard Emergency management

分类号 P444 [天文地球—大气科学及气象学] P429 [天文地球—大气科学及气象学]

引文网络
相关文献

参考文献10

1杨涛,郭琦,肖天贵.“一带一路”沿线自然灾害分布特征研究[J].中国安全生产科学技术,2016,12(10):165-171. 被引量：24
2宋长青,程昌秀,史培军.新时代地理复杂性的内涵[J].地理学报,2018,73(7):1204-1213. 被引量：108
3程昌秀,史培军,宋长青,高剑波.地理大数据为地理复杂性研究提供新机遇[J].地理学报,2018,73(8):1397-1406. 被引量：104
4宗乾进,沈洪洲.社会化媒体在自然灾害中的运用——基于研究主题和研究方法两个层面的分析[J].信息资源管理学报,2016,6(2):29-40. 被引量：1
5谈成访,汪材印,张亚康.基于LDA模型的中文微博热点话题发现[J].宿州学院学报,2014,29(4):71-73. 被引量：6
6李卫疆,王真真,余正涛.基于BTM和K-means的微博话题检测[J].计算机科学,2017,44(2):257-261. 被引量：13
7王亚民,胡悦.基于BTM的微博舆情热点发现[J].情报杂志,2016,35(11):119-124. 被引量：27
8杨腾飞,解吉波,李振宇,李国庆.微博中蕴含台风灾害损失信息识别和分类方法[J].地球信息科学学报,2018,20(7):906-917. 被引量：27
9梁春阳,林广发,张明锋,汪玮杨,张文富,林金煌,邓超.社交媒体数据对反映台风灾害时空分布的有效性研究[J].地球信息科学学报,2018,20(6):807-816. 被引量：29
10仇培元,陆锋,张恒才,余丽.蕴含地理事件微博客消息的自动识别方法[J].地球信息科学学报,2016,18(7):886-893. 被引量：11

二级参考文献95

1陈彦光.简单、复杂与地理分布模型的选择[J].地理科学进展,2015,34(3):321-329. 被引量：26
2邹嘉龄,刘春腊,尹国庆,唐志鹏.中国与“一带一路”沿线国家贸易格局及其经济贡献[J].地理科学进展,2015,34(5):598-605. 被引量：404
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：96
4李双成,蔡运龙.地理尺度转换若干问题的初步探讨[J].地理研究,2005,24(1):11-18. 被引量：229
5孟斌,王劲峰.地理数据尺度转换方法研究进展[J].地理学报,2005,60(2):277-288. 被引量：67
6宋长青,冷疏影.21世纪中国地理学综合研究的主要领域[J].地理学报,2005,60(4):546-552. 被引量：51
7黄秉维.论地球系统科学与可持续发展战略科学基础（Ⅰ）[J].地理学报,1996,51(4):350-354. 被引量：119
8张雪英.基于机器学习的文本自动分类研究进展[J].情报学报,2006,25(6):730-739. 被引量：11
9关妍,高昆.中亚国家的灾害管理体制[J].中国减灾,2007(8):34-35. 被引量：3
10王卫国,谢应齐,邱金桓,赵华柱,赵延亮,泰芳.北半球不同纬度臭氧层系统混沌吸引子的特征研究[J].地球物理学报,1997,40(3):317-324. 被引量：3

共引文献301

1刘小鹏,马存霞,魏丽,程静,魏静宜,曾端.黄河上游地区减贫转向与高质量发展[J].资源科学,2020,0(1):197-205. 被引量：40
2孔锋.国家安全视域下的区域综合灾害风险防范与风险融资战略思考[J].政府治理评论,2019(1):3-13. 被引量：3
3徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
4王昊煜,高培超,谢一茹,宋长青,王元慧.基于遗传算法的土地利用优化:NSGA-Ⅱ和NSGA-Ⅲ的对比研究[J].生态学报,2023,43(2):639-649. 被引量：6
5吴必虎,黄潇婷,刘培学,黄震方,张捷,黄珊蕙,孙晋坤.中国旅游地理研究:成果应用转化和研究技术革新[J].中国生态旅游,2021(1):52-65. 被引量：8
6毛炜圣,钟业喜.长江中游城市群城市活力水平空间格局及影响因素[J].世界地理研究,2020,0(1):86-95. 被引量：20
7罗婷婷,颜佳滢,赵耀龙.中学生地理时空思维的科学内涵与价值理念[J].热带地貌,2021(2):73-79. 被引量：2
8刘艺,杨歆佳,刘劲松.基于随机森林的人口密度模型优化试验研究[J].全球变化数据学报（中英文）,2020,4(4):402-416. 被引量：9
9王翔宇,高培超,宋长青,陈小强,王成新.不同尺度下城市用地扩张与经济增长的脱钩关系——以山东省为例[J].经济地理,2021(3):97-104. 被引量：22
10陈小强,袁丽华,宋长青,程昌秀,王翔宇,梁晓瑶,王元慧,曹丹萍,易红.人文地理研究中时间阶段划分的量化工具与应用[J].经济地理,2021(1):21-29. 被引量：8

同被引文献182

1邹沁含,庞晓阳,黄嘉靖,刘司卓.交互文本质量评价模型的构建与实践——以cMOOC 论坛文本为例[J].开放学习研究,2020,0(1):22-30. 被引量：4
2杨辰,王强,金雪欢,潘顺.基于GIS的上海市社区暴雨积涝模拟研究[J].自然灾害学报,2015,24(2):195-202. 被引量：8
3吕纯濂,陈舜华.气象灾害经济损失估算与预测的经济计量模式[J].南京气象学院学报,1993,16(1):67-72. 被引量：9
4卢文芳.上海地区热带气旋灾情的评估和灾年预测[J].自然灾害学报,1995,4(3):40-45. 被引量：33
5李春梅,罗晓玲,刘锦銮,何健.层次分析法在热带气旋灾害影响评估模式中的应用[J].热带气象学报,2006,22(3):223-228. 被引量：90
6LIU Defu,SHI Hongda,PANG Liang.Disaster prevention design criteria for the estuarine cities:New Orleans and Shanghai The lesson from Hurricane Katrina[J].Acta Oceanologica Sinica,2006,25(4):131-142. 被引量：16
7陈香.福建0608^#超强台风“桑美”灾害分析[J].亚热带资源与环境学报,2007,2(3):35-41. 被引量：6
8王维国,王秀荣.2007年城市极端天气事件及其危害分析[J].气象,2008,34(4):16-21. 被引量：25
9马清云,李佳英,王秀荣,王维国,高兰英.基于模糊综合评价法的登陆台风灾害影响评估模型[J].气象,2008,34(5):20-25. 被引量：59
10沈洛冰,王宁.台风对浙江地区的正面影响[J].世界科技研究与发展,2008,30(6):846-848. 被引量：2

引证文献14

1姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.
2童丽萍,李明.风荷载作用下玻璃幕墙结构的受力分析与计算[J].工业建筑,2000,30(4):27-30. 被引量：13
3韩珂珂,邢子瑶,刘哲,刘峻明,张晓东.重大公共卫生事件中的舆情分析方法研究——以新冠肺炎疫情为例[J].地球信息科学学报,2021,23(2):331-340. 被引量：18
4张琛,马祥元,周扬,郭仁忠.基于用户情感变化的新冠疫情舆情演变分析[J].地球信息科学学报,2021,23(2):341-350. 被引量：40
5陈齐超,林广发,梁春阳,黄潇,张明锋,陈鑫,周星辰.基于微博数据和情感分析法的台风“米克拉”灾情过程探测[J].亚热带资源与环境学报,2021,16(1):70-76. 被引量：6
6陈齐超,林广发,梁春阳.基于微博数据的台风灾情分析系统设计与实现[J].信息与电脑,2021,33(4):77-79.
7杨辰,潘顺,严岩.基于自然语言识别的上海市报警灾情数据识别及其气象灾害特征分析研究[J].自然灾害学报,2021,30(3):142-150. 被引量：9
8王洪鑫,闫志明,陈效玉,张铭锐.面向MOOC课程评论的主题挖掘与情感分析研究[J].开放学习研究,2021,26(4):16-23. 被引量：9
9王卷乐,魏海硕,严欣荣,张敏,韩雪华.“一带一路”经济走廊资源环境信息开发利用研究进展与展望[J].地球信息科学学报,2022,24(6):1019-1033. 被引量：2
10万静静,罗梦圆,王思行,徐晓玲.韧性城市视角下台风灾害应急物资调度研究[J].武汉理工大学学报（信息与管理工程版）,2022,44(4):541-546. 被引量：3

二级引证文献101

1陈浩哲,郭妍廷.支持与压迫:新冠肺炎疫情期间社交媒体的使用对公众心理影响的一体两面[J].新媒体研究,2023,9(1):27-34.
2郭荣荣,闵素芹.“线上学习”舆情分析与在线教学提升策略[J].中国传媒大学学报（自然科学版）,2020,27(6):48-54. 被引量：2
3郭晓航,闵素芹.突发公共事件下教育舆情评析——以新冠疫情期间“停课不停学”舆情为例[J].中国传媒大学学报（自然科学版）,2020,27(6):40-47. 被引量：2
4史宝军,尹晓江,张瑞军,宋世军.玻璃幕墙结构力学性能试验分析与数值模拟[J].山东建筑大学学报,2006,21(6):474-479. 被引量：7
5徐旭,李芬.玻璃幕墙在台风作用下的可靠度分析[J].广西大学学报（自然科学版）,2009,34(1):22-27. 被引量：3
6董军,毛黎明,季克和.复杂环境中玻璃幕墙设计风压风洞试验[J].自然灾害学报,2009,18(6):175-181. 被引量：4
7吴晓.用能量法研究玻璃幕墙面板的非线性弯曲[J].强度与环境,2010,37(4):7-12.
8任亚伟,赵俊峰.基于虚拟激励法的大型幕墙结构的风致响应谱分析[J].山东煤炭科技,2010,28(6):187-188.
9王欢.地铁屏蔽门力学模型研究以及基于EXCEL的计算工具[J].中国科技博览,2011(29):247-247.
10刘承宗,周志勇.我国轻钢建筑及其发展问题探讨[J].工业建筑,2000,30(4):18-23. 被引量：58

1罗达,林杭生,金钊,郑涵,宋怡,冯立,郭庆华.无人机数字摄影测量与激光雷达在地形地貌与地表覆盖研究中的应用及比较[J].地球环境学报,2019,10(3):213-226. 被引量：19
2要闻速览[J].安全与健康,2019,0(4):50-50.
3郑斌,褚岩,赵绪军,甘振东,梁恒.纳滤和反渗透技术在高含盐地下水中的应用及比较研究[J].给水排水,2019,45(5):17-24. 被引量：3
4郭叶,孙妹.最高人民法院指导性案例2018年度司法应用报告[J].中国应用法学,2019(3):146-174. 被引量：21
5陈军.Eviews/SPSS/Stata软件在单方程模型预测中的实操应用及比较分析[J].广东技术师范学院学报,2019,40(3):55-60.
6童立强,祁生文,安国英,刘春玲.喜马拉雅山地区重大地质灾害遥感调查研究[J].工程地质学报,2019,27(3):496-496.
7李思汗,王彦,诸静,于俊荣,胡祖明.钴离子掺杂聚多巴胺/聚苯乙烯复合材料[J].合成纤维,2019,48(5):42-48. 被引量：1
8曹存相,霍亮,朱秀丽,慕旭,秦高雅,王金地.多数据源的全球地名翻译比对与匹配方法研究[J].测绘科学,2019,44(7):171-176. 被引量：1
9赵迎节,胡美.南苏丹难民的救援困境及应对措施[J].非洲研究,2017(1):95-108.
10张齐.光引发剂及其在紫外光固化粘合剂中的应用研究[J].化工管理,2019(11):172-173. 被引量：1

地球信息科学学报

2019年第8期

浏览历史

内容加载中请稍等...

主题模型在基于社交媒体的灾害分类中的应用及比较被引量：14

参考文献10

二级参考文献95

共引文献301

同被引文献182

引证文献14

二级引证文献101

相关作者

相关机构

相关主题

浏览历史

主题模型在基于社交媒体的灾害分类中的应用及比较 被引量：14

参考文献10

二级参考文献95

共引文献301

同被引文献182

引证文献14

二级引证文献101

相关作者

相关机构

相关主题

浏览历史

主题模型在基于社交媒体的灾害分类中的应用及比较被引量：14