一种基于本体语义的灾害主题爬虫策略被引量：4

A Strategy of Disaster Focused Crawler Based on Ontology Semantics

下载PDF

导出

摘要为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。 This paper introduces ontology semantics and proposes a new strategy of disaster focused crawler to retrieve disaster theme webpages from the Internet efficiently and accurately.Firstly,the frame and process of disaster focused crawler are designed,and an improved ontology semantic similarity calculation method is proposed.Secondly,the thematic semantic vector is calculated based on semantic similarity,the webpage text feature vector is obtained based on HTML location weighting,and the thematic relevance is calculated.Then a relevance calculation method of URL anchor text is proposed,URL link priority is analyzed,and the crawling queue is optimized.Earthquake disaster and meteorologic disaster are selected to test and analyze,and the experimental results show that the proposed strategy can improve stability and accuracy.

作者马雷雷李宏伟连世伟梁汝鹏陈虎

机构地区信息工程大学地理空间信息学院四川省应急测绘与防灾减灾工程技术研究中心国防信息学院

出处《计算机工程》 CAS CSCD 北大核心 2016年第11期50-56,共7页 Computer Engineering

基金国家自然科学基金(41271392 41401463 41571394) 四川省应急测绘与防灾减灾工程技术研究中心开放基金(K2015B014)

关键词主题爬虫本体语义相似度向量空间模型相关度计算锚文本 focused crawler ontology semantic similarity Vector Space Model （ VSM ） relevance calculation achor text

分类号 P208 [天文地球—地图制图学与地理信息工程]

引文网络
相关文献

参考文献10

1贺晟,程家兴,蔡欣宝.基于模拟退火算法的主题爬虫[J].计算机技术与发展,2009,19(12):55-58. 被引量：8
2李璐,张国印,李正文.基于SVM的主题爬虫技术研究[J].计算机科学,2015,42(2):118-122. 被引量：12
3皮靖,邵雄凯,肖雅夫.基于朴素贝叶斯算法的主题爬虫的研究[J].计算机与数字工程,2012,40(6):76-78. 被引量：7
4石静,吴云芳,邱立坤,吕学强.基于大规模语料库的汉语词义相似度计算方法[J].中文信息学报,2013,27(1):1-6. 被引量：25
5朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
6胡哲,郑诚.改进的概念语义相似度计算[J].计算机工程与设计,2010,31(5):1121-1124. 被引量：10
7黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463. 被引量：67
8崔其文,解福.改进的领域本体概念语义相似度计算方法[J].计算机应用与软件,2012,29(2):173-174. 被引量：12
9李文杰,赵岩.基于本体结构的概念间语义相似度算法[J].计算机工程,2010,36(23):4-6. 被引量：28
10宋聚平,王永成,尹中航,滕伟.对网页PageRank算法的改进[J].上海交通大学学报,2003,37(3):397-400. 被引量：40

二级参考文献95

1吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
2李春旺.Web信息主题采集技术研究[J].图书情报工作,2005,49(4):77-80. 被引量：17
3周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
4王知人,章胤,李新乔.一种改进的模拟退火算法[J].高等学校计算数学学报,2006,28(1):15-19. 被引量：13
5张小峰,唐新亭,赵永升,李明.基于本体技术的Internet智能搜索研究[J].计算机工程与设计,2006,27(7):1194-1197. 被引量：6
6张承立,陈剑波,齐开悦.基于语义网的语义相似度算法改进[J].计算机工程与应用,2006,42(17):165-166. 被引量：38
7杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：242
8徐德智,王怀民.基于本体的概念间语义相似度计算方法研究[J].计算机工程与应用,2007,43(8):154-156. 被引量：34
9林海霞,原福永,陈金森,刘俊峰.一种改进的主题网络蜘蛛搜索算法[J].计算机工程与应用,2007,43(10):174-176. 被引量：18
10黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463. 被引量：67

共引文献515

1杜家驹,岂凡超,孙茂松,刘知远.基于局部语义相关性的定义文本义原预测[J].中文信息学报,2020(5):1-9. 被引量：4
2杨频,李涛,赵奎.一种网络舆情的定量分析方法[J].计算机应用研究,2009,26(3):1066-1068. 被引量：19
3申晓晔,封化民,毋非.基于语义的Web新闻内容倾向性分析框架[J].郑州大学学报（理学版）,2009,41(1):33-35.
4胡哲,郑诚.一种改进的基于领域本体的概念语义相似度算法[J].齐齐哈尔大学学报（自然科学版）,2013,29(1):1-6. 被引量：1
5罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3
6杨格兰,涂立.基于主题相关性和链接权重的PageRank算法[J].华中科技大学学报（自然科学版）,2012,40(S1):300-303. 被引量：4
7李国林,万常选,边海容,杨莉,钟敏娟.基于语素的金融证劵域文本情感探测[J].计算机研究与发展,2011,48(S3):54-59. 被引量：7
8王毅,陈庆新,毛宁.基于本体的改模方案聚类研究[J].机械科学与技术,2015,34(4):570-576.
9杨沅钊,吴薇,喻晓莉,杨国才.搜索引擎排名改进算法分析[J].农业网络信息,2005(2):41-43. 被引量：2
10戚华春,黄德才,郑月锋.具有时间反馈的PageRank改进算法[J].浙江工业大学学报,2005,33(3):272-275. 被引量：27

同被引文献42

1谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
2钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765. 被引量：26
3徐永东,徐志明,王晓龙,刘远超.中文文本时间信息获取及语义计算[J].哈尔滨工业大学学报,2007,39(3):438-442. 被引量：10
4李克莉,冯子健.突发公共卫生事件及其监测系统[J].疾病监测,2007,22(4):282-284. 被引量：8
5李卫江,温家洪.基于Web文本的灾害信息挖掘研究进展[J].灾害学,2010,25(2):119-123. 被引量：7
6孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47. 被引量：99
7蔡华利,刘鲁,刘志明,杨跃翔.突发事件Web新闻中时间信息分析及抽取[J].计算机工程与应用,2010,46(34):107-110. 被引量：11
8刘彤,闫天池.我国的主要气象灾害及其经济损失[J].自然灾害学报,2011,20(2):90-95. 被引量：180
9朱莎莎,刘宗田,付剑锋,朱芳.基于条件随机场的中文时间短语识别[J].计算机工程,2011,37(15):164-167. 被引量：16
10李刚,刘景发.基于禁忌搜索的启发式算法求解带平衡约束的圆形装填问题[J].中国科学：信息科学,2011,41(9):1076-1088. 被引量：8

引证文献4

1韩雪华,王卷乐,卜坤,王玉洁.基于Web文本的灾害事件信息获取进展[J].地球信息科学学报,2018,20(8):1037-1046. 被引量：16
2林椹尠,袁柱,李小平.一种主题自适应聚焦爬虫方法[J].计算机应用与软件,2019,36(5):316-321. 被引量：8
3刘景发,顾瑶平,刘文杰.融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法[J].计算机应用,2020,40(8):2255-2261. 被引量：6
4东熠,刘景发,刘文杰.基于多目标蚁群算法的主题爬虫策略[J].计算机工程,2020,46(9):274-282. 被引量：9

二级引证文献36

1周峦,林芸,陈露诗.剖宫产术中出血相关因素的探讨[J].广东医学,2000,21(5):420-421. 被引量：1
2王艳杰,王卷乐,卜坤.灾害数据管理技术与平台进展及其面临的需求研究[J].灾害学,2019,34(2):205-210. 被引量：12
3刘淑涵,王艳东,付小康.利用卷积神经网络提取微博中的暴雨灾害信息[J].地球信息科学学报,2019,21(7):1009-1017. 被引量：12
4黄宗财,仇培元,王海波,吴升.结合事件和语境特征的台风事件信息抽取方法[J].测绘科学技术学报,2019,36(2):209-214. 被引量：2
5朱二莉.基于WebMagic框架的面向招聘网站的爬虫技术研究[J].信息与电脑,2019,31(19):141-142. 被引量：1
6黄宗财,仇培元,陆锋,吴升.基于联合主题特征的网络新闻文本蕴含环境污染事件检测[J].地球信息科学学报,2019,21(10):1510-1517. 被引量：5
7赵书田,刘海姣.基于大数据时代的信息可视化分析[J].新一代信息技术,2019,2(20):53-57. 被引量：1
8张清兰,解吉波,刘战,杨腾飞,李振宇.基于社交媒体的海南风灾监测数据集[J].中国科学数据（中英文网络版）,2019,4(2):145-155.
9刘景发,顾瑶平,刘文杰.融合本体和改进禁忌搜索策略的气象灾害主题爬虫方法[J].计算机应用,2020,40(8):2255-2261. 被引量：6
10刘涛,张晓辉,杜萍,杜清运,李爱勤,龚丽芳.文本大数据中地震应急的知识发现方法[J].武汉大学学报（信息科学版）,2020,45(8):1205-1213. 被引量：2

1方帅,李林,张晓东.面向地震宏观异常的主题爬虫研究[J].震灾防御技术,2013,8(4):475-480. 被引量：1
2徐诗亮.一种基于概念空间的主题爬虫设计方法[J].福建电脑,2008,24(10):125-125.
3武昊,廖安平,何超英,侯东阳.基于主题相关度的地理信息Web服务爬虫研究[J].地理与地理信息科学,2012,28(2):27-30. 被引量：12
4柳佳佳,葛文.基于本体语义的地理信息服务发现[J].测绘工程,2013,22(6):9-13. 被引量：6
5安杨,边馥苓,关佶红.GIS中地理本体的建立与比较[J].武汉大学学报（信息科学版）,2006,31(12):1108-1111. 被引量：13
6沈平,桂志鹏,游兰,胡凯,吴华意.一种主动发现网络地理信息服务的主题爬虫[J].地球信息科学学报,2015,17(2):185-190. 被引量：4
7曹彦波,李永强,李兆隆,明小娜.地震紧急救援区域优先度判定模型研究[J].自然灾害学报,2014,23(3):181-189. 被引量：6
8董浩然,谢欢,陈鹏,洪中华,童小华.基于GIS主题爬虫的在线房产估价系统与优化[J].地理信息世界,2016,23(2):107-112. 被引量：5
9李红梅,翟亮,朱熀.基于本体的地理空间实体类型语义相似度计算模型的研究[J].测绘科学,2009,34(2):12-14. 被引量：14
10谭永滨,唐瑶,李小龙,刘波,危小建.语义支持的地理要素属性相似性计算模型[J].遥感信息,2017,32(1):126-133. 被引量：4

计算机工程

2016年第11期

浏览历史

内容加载中请稍等...

一种基于本体语义的灾害主题爬虫策略被引量：4

参考文献10

二级参考文献95

共引文献515

同被引文献42

引证文献4

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

一种基于本体语义的灾害主题爬虫策略 被引量：4

参考文献10

二级参考文献95

共引文献515

同被引文献42

引证文献4

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

一种基于本体语义的灾害主题爬虫策略被引量：4