基于SRI的动态网页信息抽取方法被引量：1

Information Extraction Method for Dynamic Web Pages Based on Similar Records Induction

下载PDF

导出

摘要提出了基于相似记录项归纳的动态网页信息抽取方法.该方法采用编辑距离算法和树排列算法归纳产生记录项的包装器树.对各种类型网页进行信息抽取实验,取得98.11%的召回率和96.90%的准确率. Dynamic Web pages are pages which are generated by programs automatically. It is estimated that most Web pages exist in the form of dynamic web pages. This paper puts forward an extraction method based on similar records induction （ SRI）, which uses string editing distance algorithm and DOM tree alignment algorithm to generate record wrapper. Experimental results show that the extraction method gets a recall of 98.11% and a precision of 96.90% for all kinds of dynamic Web pages.

作者朱跃林戴昌林高志强

机构地区无锡中航恒信工程管理咨询有限公司东南大学计算机科学与工程学院

出处《重庆工学院学报（自然科学版）》 2009年第10期87-93,共7页 Journal of Chongqing Institute of Technology

基金国家自然科学基金资助项目(60873153 60803061)

关键词动态网页信息抽取包装器 DOM树 dynamic Web page information extraction wrapper DOM tree

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1Ray mond Kosala , Hendrik Blockeel. Web Mining Research: A Survey [ Z ]. SKGKDD: Explorations, 2000.
2LiuL, Pu C, Han W. XWRAP: An XML-Enabled Wrapper Construction System for Web Information Sources[C]//Proc. 16th IEEE Int'l Conf. Data Eng. (ICDE). [S.l. ]:Is. n. ] ,2000:611 -621.
3Gusfield, D. Algorithms on strings, tree, and sequence [M]. Cambrige:[s. n. ] ,1997.
4Crescenzi V, Mecca G, Merialdo P. RoadRunner: Towards-Automatic Data Extraction from Large Web Sites[C]//Proc. the 26th Int'l Conf. Very Large Database Systems (VLDB). [S. l. ]: [s. n. ] ,2001: 109 - 118.
5Chang C H, Lui S C. IEPAD: information extraction based on pattern discovery [ C ]//Proc. 10th World Wide Web Conf. [ S. l. ] : [ s. n. ] ,2001 : 681 -688.
6Chang C H, Kuo S C. OLERA: A Semisupervised Approach for Web Data Extraction with Visual Support [ J ]. IEEE Intelligent Systems,2004, 19 (6) :56 - 64.
7Hogue A, Karger D. Thresher: Automating the Unwrapping of Semantic Content from the World Wide [ C ]//Proe. 14th Int'l Conf. World Wide Web (WWW). [S.l.]:[s.n.] ,2005.
8Liu B,. Grossman R, Zhai Y. Mining Data Records in Web Pages [ C ]//Proc. Int'l Conf. Knowledge Discovery in Databases and Data Mining (KDD). [S. l. ]:[s. n. ],2003:601 -606.
9Zhai Y , Liu B. Web Data Extraction Based on Partial Tree Alignment [ C ]//Proc. 14th Int'l Conf. World Wide Web (WWW). [S. l. ] :[s. n. ] ,2005:76 -85.

同被引文献2

1徐铁,耿佳宁.网页信息抽取方法的研究[J].信息技术,2009,33(4):112-115. 被引量：4
2张丽娜,陈俊杰,赵丽欣.基于HTMLParser的BT种子网页信息抽取[J].电脑开发与应用,2010,23(3):59-61. 被引量：4

引证文献1

1张国平,李钊.网页信息抽取RoadRunner技术浅析[J].科技创业月刊,2010,23(11):172-173. 被引量：1

二级引证文献1

1常丽君,钱钢.面向不规则列表的网页数据抽取技术的研究[J].计算机应用研究,2015,32(9):2651-2654. 被引量：1

1王晓东,吴英杰,傅仰耿,傅志祥.算法归纳设计策略与循环不变式[J].福州大学学报（自然科学版）,2004,32(4):387-392. 被引量：3
2崔婉秋,李昕,孟祥福,崔岩,王大伟.关系数据库关键字查询方法研究[J].小型微型计算机系统,2016,37(12):2702-2707. 被引量：3
3郭龙江,李建中,李金宝.无线传感器网络若干定位算法的研究[J].计算机工程与设计,2006,27(12):2114-2118. 被引量：12
4SRI International和BRSLabs合作提供集成化应急响应系统[J].A&S（安全&自动化）,2010(9):34-34.
5肖红.两个安全模型Bell—Lapadula和SRI的比较研究[J].抗恶劣环境计算机,1993,7(3):51-53.
6未来太空外科手术将可由机器人实施[J].机器人技术与应用,2007(5):45-45.
7傅骞,温晓辉.开放式Web信息抽取系统研究与实现[J].北京师范大学学报（自然科学版）,2005,41(6):594-598. 被引量：3
8李凌云.无线传感器网络定位技术研究[J].信息技术,2008,32(12):148-150. 被引量：4
9唯实.人造肌肉发电[J].科学世界,2009(7):82-83.
10海外速递[J].自动化博览,2008,25(6):6-6.

重庆工学院学报（自然科学版）

2009年第10期

浏览历史

内容加载中请稍等...

基于SRI的动态网页信息抽取方法被引量：1

参考文献9

同被引文献2

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于SRI的动态网页信息抽取方法 被引量：1

参考文献9

同被引文献2

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于SRI的动态网页信息抽取方法被引量：1