D-EEM:一种基于DOM树的Deep Web实体抽取机制被引量：17

D-EEM:A DOM-Tree Based Entity Extraction Mechanism for Deep Web

下载PDF

导出

摘要随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. With the increase of Web databases,accessing Deep Web is becoming the main method to acquire information.Because of the large-scale unstructured content,heterogeneous result and dynamic data in Deep Web,there are some new challenges for entity extraction.Thus it is important to solve the problem of extracting the entities from Deep Web result pages effectively.By analyzing the characteristics of result pages,a DOM-tree based entity extraction mechanism for Deep Web（called D-EEM） is presented to solve the problem of entity extraction for Deep Web.D-EEM is modeled as three levels：expression level,extraction level,collection level.Therein the components of region location and semantic annotation are the core parts to be researched in this paper.A DOM-tree based automatic entity extraction strategy is performed in D-EEM to determine the data regions and entity regions respectively,which can improve the accuracy of extraction by considering both the textual content and the hierarchical structure in DOM-trees.Also based on the Web context and co-occurrence,a semantic annotation method is proposed to benefit the process of data integration effectively.An experimental study is proposed to determine the feasibility and effectiveness of the key techniques of D-EEM.Compared with various entity extraction strategies,D-EEM is superior in the accuracy and efficiency of extraction.

作者寇月李冬申德荣于戈聂铁铮

机构地区东北大学信息科学与工程学院东软集团商用软件事业部

出处《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页 Journal of Computer Research and Development

基金国家自然科学基金项目(60673139 60973021) 国家"八六三"高技术研究发展计划基金项目(2008AA01Z146) 中央高校基本科研业务费专项基金项目(NO90304005)~~

关键词实体抽取 DOM树 DEEPWEB 数据区域定位实体区域定位 entity extraction DOM-tree Deep Web data region location entity region location

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Chang KCC,He B,Li C,et al.Structured databases on the Web:Observations and implications[J].SIGMOD Record,2004,33(3):61-70.
2Calife M,Mooney R.Relational learning of pattern match rules for information extraction[C] //Proc of the 16th National Conf on Artificial Intelligence and 11th Conf on Innovative Applications of Artificial Intelligence.Menlo Park,CA:AAAI,1999:328-334.
3Soderlan S.Learning information extraction rules for semi-structured and free text[J].International Journal of Machine Learning,1999,34(1-3):233-272.
4Muslea I,Minton S,Knoblock G.A hierarchical approach to wrapper induction[C] //Proc of the 3rd Conf on Autonomous Agents.New York:ACM,1999:190-197.
5Liu Wei,Meng Xiaofeng,Meng Weiyi.Vision-based Web data records extraction[C] //Proc of the 9th SIGMOD Int Workshop on Web and Database.New York:ACM,2006:20-25.
6Zhao Hongkun,Meng Weiyi.Fully automatic wrapper generation for search engines[C] //Proc of WWW'05.New York:ACM,2005:66-75.
7Liu L,Pu C,Han W.XWRAP:An XML-enable wrapper construction system Web information sources[C] //Proc of the 16th IEEE Int Conf on Data Engineering.Washington:IEEE,2000:611-621.
8Valter C,Giansalvatore M,Paolo M.RoadRunner:Towards automatic data extraction from large Web sites[C] //Proc of the 27th VLDB.San Francisco:Morgan Kaufmann,2001:109-118.
9李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
10王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6

二级参考文献39

1Florescu D, Levy A Y, Mendelzon A. Database techniques for the World-Wide Web: A Survery. In: ACM The SIGMOD Record, 1998.59-74
2Atzeni P, Mecca G, Merialdo P. To weave the Web. In: Proc the 23rd International Conference on Very Large Data Bases. Athens, Greece, 1997. 206-215
3Pemberton S et al. XHTML 1.0: The extensible hyperText markup language. In: http://www.w3.org/MarkUp/
4Cattell R G G. The Object Database Standard ODMG-93. San Mateo,California: Morgan Kaufmann Publishers,1994
5Mitchell T. Machine Learning. New York: McGraw Hill, 1997
6Wall L et al. Programming Perl(3rd Edition). O'Reilly & Associates,2000
7Birbeck M et al. Professional XML. Wrox Press Inc, 2000
8Liu L, Pu C, Han W. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proc International Conference on Data Engineering (ICDE), San diego, California, 2000. 611-621
9Chamberlin D, Robie J, Florescu D. Quilt: An XML query language for heterogeneous data sources. In: Proc International Workshop on the Web and Databases (WebDB'2000), Dallas, Texas, 2000. 53-62
10Sahuguet A, Azavant F. Building light-weight wrappers for legacy web datasources using w4f. In: Proc International Conference on Very Large Databases, Edinburgh, Scotland, 1999. 738-741

共引文献144

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
6王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
7孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
8李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
9张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
10LIXiang-yang,ZHANGYa-fei,LUJian-jiang,XUBao-wen.A Classification Method for Web Information Extraction[J].Wuhan University Journal of Natural Sciences,2004,9(5):823-827. 被引量：2

同被引文献104

1魏景龙.智能矿山建设研究[J].工矿自动化,2021,47(S01):19-20. 被引量：10
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3黄晓冬.Invisible Web研究综述[J].情报科学,2004,22(9):1144-1148. 被引量：19
4姚天顺,张俐,高竹.WordNet综述[J].语言文字应用,2001(1):27-32. 被引量：33
5孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
6刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
7赵朋朋,崔志明,高岭,仲华.关于中国Deep Web的规模、分布和结构[J].小型微型计算机系统,2007,28(10):1799-1802. 被引量：13
8谢莹,左万利.Deep Web查询结果抽取及注释[D].长春:吉林大学,2010:18-27.
9潘高源,左万利.Deep Web查询结果抽取技术的研究[D].长春:吉林大学,2011:32-35.
10高亚,袁方.Deep Web数据集成系统中数据抽取与语义标注研究[D].保定:河北大学,2010:15-19.

引证文献17

1高明,黄哲学.Deep Web研究现状与展望[J].集成技术,2012,1(3):47-54. 被引量：1
2赵海霞,李道申,刘勇,赵嘉诚.一种Deep Web查询结果的实体抽取方法[J].计算机工程与应用,2012,48(36):160-163. 被引量：4
3马友忠,孟小峰,姜大昕.移动应用集成:框架、技术与挑战[J].计算机学报,2013,36(7):1375-1387. 被引量：16
4顾韵华,高原,高宝,杜杰.基于模板和领域本体的Deep Web信息抽取研究[J].计算机工程与设计,2014,35(1):327-332. 被引量：16
5高集荣,田艳,江晓妍.基于树结构的Web页面适配方法的研究[J].微型机与应用,2014,33(1):77-80. 被引量：2
6余伟,陶皖.一种基于领域本体的Deep Web实体信息提取的后处理方法[J].安徽工程大学学报,2016,31(5):88-94.
7孟川,武小年.基于文本特征值的正文抽取方法[J].桂林电子科技大学学报,2017,37(2):106-110. 被引量：2
8郝志峰,袁琴,蔡瑞初,温雯,骆魁永.基于加权频繁子树相似度的网页评论信息抽取[J].计算机应用研究,2017,34(6):1636-1639. 被引量：3
9王嵘冰,党小婉,徐红艳,冯勇.基于模板的Deep Web实体识别信息抽取方法研究[J].辽宁大学学报（自然科学版）,2017,44(2):97-104.
10彭艳兵,谢馨庭.基于单DOM树特征预分类的自适应Web信息抽取方法[J].电子设计工程,2017,25(19):56-59. 被引量：4

二级引证文献52

1柴丽萍,杜一玮,庄硕,章禹,徐红灿.数智时代企业智慧文档管理体系构建研究[J].情报科学,2022,40(12):36-41. 被引量：2
2郭晓宇,彭浩.基于本体的网页数据抽取技术的探讨[J].中国多媒体与网络教学学报（电子版）,2020(19):4-5.
3姚双良.基于主题的Deep Web聚焦爬虫研究与设计[J].西北师范大学学报（自然科学版）,2013,49(2):40-43. 被引量：2
4杨杰.软件工程开发市场调查与分析[J].信息通信,2013,26(2):292-292.
5刘平丽.基于软件开发中软件需求的研究[J].电子技术与软件工程,2014(2):98-98.
6刘杰.一种基于自动特征权值的实体相似度计算方法[J].重庆科技学院学报（自然科学版）,2014,16(3):157-160. 被引量：2
7余以胜.移动终端Web页面的优化处理研究[J].电子技术应用,2014,40(7):126-129. 被引量：5
8康昱.互联网技术的应用研究[J].计算机光盘软件与应用,2014,17(15):143-144.
9余勃,郭宏,栗忠强,徐景,张若凡.基于AppCan的跨平台手机英语学习系统的设计与实现[J].教育教学论坛,2014(46):276-278. 被引量：1
10胡兵.企业移动应用的设计及实践[J].信息技术与标准化,2014(12):60-63. 被引量：2

1余伟,陶皖.一种基于领域本体的Deep Web实体信息提取的后处理方法[J].安徽工程大学学报,2016,31(5):88-94.
2王俊清,张冰.大容量卡将成为LTE时代运营商核心价值和战略的载体[J].电子世界,2013(19):172-173.
3郭建兵,崔志明,陈明,赵朋朋.基于DOM树与领域本体的Web抽取方法[J].计算机工程,2012,38(5):56-58. 被引量：6
4王丽娜,刘炎,侯健敏.基于EEM和NAT构建服务器群[J].信息技术,2014,38(9):24-28. 被引量：1
5贾文涛,朱德海,杨永侠.元件级的编程[J].工程设计CAD与智能建筑,2000(4):32-33.
6刘冉冉.基于统一数据抽取网关的网格系统数据仓库建设[J].视听界（广播电视技术）,2016,0(2):78-81.
7翁湦元,单杏花.基于EEMD-GA-BP的组合客流预测算法研究[J].铁路计算机应用,2016,25(3):31-33. 被引量：1
8吴俊军,周方圆.基于EEM的网络智能卡研究[J].计算机工程与科学,2009,31(7):31-34. 被引量：1
9古辉,马灵春,阳继旭.一种改进的程序理解信息抽取系统(TSE)设计[J].浙江工业大学学报,2008,36(2):174-177. 被引量：1
10时尚电子[J].IT时代周刊,2014(19):62-63.

计算机研究与发展

2010年第5期

浏览历史

内容加载中请稍等...

D-EEM:一种基于DOM树的Deep Web实体抽取机制被引量：17

参考文献11

二级参考文献39

共引文献144

同被引文献104

引证文献17

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量：17

参考文献11

二级参考文献39

共引文献144

同被引文献104

引证文献17

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

D-EEM:一种基于DOM树的Deep Web实体抽取机制被引量：17