基于本体的网页数据抽取技术的探讨

导出

摘要 21世纪是信息快速发展的时代,网络就像是一个巨大宝库,里面汇集着大量的数据信息,人们通过网络能够获取网页数据,并将网页信息抽取技术作为研究重点,提出基于本体的网页数据抽取方法,当前信息抽取技术还存在一些问题,包括:1.人工干预比较多,很多技术都需要样本训练,给用户带来负担。2.适应性比较差。只有解决了存在的问题才能获得更好的发展,本文就对基于本体的网页数据抽取技术进行分析。 The 21st century is an era of rapid development of information,the network is like a huge treasure house,which brings together a large amount of data information,people can obtain web page data through the network,and take web page information extraction technology as the research focus,put forward the ontology-based web page data extraction method,the current information extraction technology still has some problems,including:1.There are many manual interventions,many technologies need sample training,bring burden to users.2.adaptability is poor.Only by solving the existing problems can we get better development.This paper analyzes the ontology-based web page data extraction technology.

作者郭晓宇彭浩

机构地区湖南涉外经济学院

出处《中国多媒体与网络教学学报（电子版）》 2020年第19期4-5,共2页 China Journal of Multimedia & Network Teaching

基金湖南省自然科学基金资助项目(项目编号:2017JJ2135) 湖南省教育厅科学研究项目(项目编号:18A481,19C1070)

关键词基于本体网页数据抽取技术分析 ontology-based web data extraction techniques analysis

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1常丽君.基于本体的网页数据抽取技术的研究[J].电脑知识与技术,2014(6):3726-3728. 被引量：1
2顾韵华,高原,高宝,杜杰.基于模板和领域本体的Deep Web信息抽取研究[J].计算机工程与设计,2014,35(1):327-332. 被引量：16
3陈巧,施佺.基于蚂蚁算法的Deep Web页面信息抽取方法研究[J].煤炭技术,2013,32(2):176-178. 被引量：3

二级参考文献17

1周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
2胡思康,曹元大.Web网页知识获取技术[J].北京理工大学学报,2006,26(12):1065-1068. 被引量：4
3刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
4赵朋朋,崔志明,高岭,仲华.关于中国Deep Web的规模、分布和结构[J].小型微型计算机系统,2007,28(10):1799-1802. 被引量：13
5董旻,方曙.Deep Web信息抽取研究[J].图书情报工作,2007,51(10):25-28. 被引量：5
6He B,Patel M,Zhang Z. Accessing the deep web:A survey[J].{H}Communications of the ACM,2007,(5):95-101.
7Liu Wei,Meng Xiaofeng,Meng Weiyi. ViDE:A vision-based approach for Deep Web data extraction[J].{H}IEEE Transactions on Knowledge and Data Engineering,2010,(3):447-460.
8刘丽楠,寇月,孙高尚,申德荣,于戈.Duplicate identification model for deep web[J].Journal of Southeast University(English Edition),2008,24(3):315-317. 被引量：4
9毕蕾,沈洁,徐法艳,魏榴花,朱燕,孙荣霜.领域本体指导的Web商品信息抽取[J].计算机工程与设计,2008,29(24):6393-6396. 被引量：9
10李朝,彭宏,叶苏南,张欢,杨亲遥.基于DOM树的可适应性Web信息抽取[J].计算机科学,2009,36(7):202-203. 被引量：16

共引文献16

1何云钢,曹宝香.基于DOM树和DBSCAN算法的Web信息提取[J].电子技术（上海）,2015,42(6):88-92. 被引量：1
2茹蓓,陈建彪.基于朴素贝叶斯方法的Web数据噪音分类研究[J].内江科技,2016,37(7):36-37.
3刘华春,王星捷.网络舆情信息提取技术研究与实现[J].计算机技术与发展,2016,26(9):8-11. 被引量：4
4阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1
5王嵘冰,党小婉,徐红艳,冯勇.基于模板的Deep Web实体识别信息抽取方法研究[J].辽宁大学学报（自然科学版）,2017,44(2):97-104.
6马晓慧,李泓莹.一种DOM树标签路径和行块密度结合的Web信息抽取方法[J].智能计算机与应用,2017,7(4):13-16. 被引量：4
7姚晓鹏,高圣兴,薛君志,陆敏超.全局模式下的深网数据抽取与挖掘[J].计算机应用与软件,2018,35(2):91-95. 被引量：1
8刘鹏程,胡骏,吴共庆.基于文本块密度和标签路径覆盖率的网页正文抽取[J].计算机应用研究,2018,35(6):1645-1650. 被引量：5
9陈巧,丁卫泽,施佺.基于云计算面向网络舆情的Deep Web数据抽取关键技术研究[J].电脑知识与技术,2016,12(5X):23-25. 被引量：1
10洪鸿辉,丁世涛,黄傲,郭致远.基于文本及符号密度的网页正文提取方法[J].电子设计工程,2019,27(8):133-137. 被引量：1

1陶卫卫.Python爬虫的Cookie反爬应对策略研究[J].信息与电脑,2021,33(8):189-192. 被引量：1
2许存恩.论马铃薯栽培中存在的问题[J].农民致富之友,2021(20):80-80.
3黄子依,秦玉海.基于多特征识别的恶意挖矿网页检测及其取证研究[J].信息网络安全,2021(7):87-94. 被引量：5
4张忠海,杨桐,王昊,张霄林,曹特,倪乐意,袁昌波.洱海四种沉水植物对弱光环境的适应性比较[J].湖泊科学,2021,33(4):1196-1208. 被引量：7
5王一鸣,苗明军,缪鑫,宋锐,李菊,陈娟,廖继超,唐建.紫皮大蒜新品种引进及适应性比较[J].长江蔬菜,2021(14):44-47.
6罗孝荣,吴海棠,李大荣,吴佳奇,熊琳珂.引进甘蓝型油菜新品种(系)适应性研究[J].安徽农业科学,2021,49(13):17-19. 被引量：2

中国多媒体与网络教学学报（电子版）

2020年第19期

浏览历史

内容加载中请稍等...

基于本体的网页数据抽取技术的探讨

参考文献3

二级参考文献17

共引文献16

相关作者

相关机构

相关主题

浏览历史