基于视觉热区的网页内容抽取方法被引量：1

WEB PAGES CONTENT EXTRACTION BASED ON VISUAL HOT ZONE

下载PDF

导出

摘要对网页抽取进行研究,提出一种新的网页正文信息提取方法,它利用网页布局特征与网页视觉热区来确定网页正文信息。首先选取网页的一部分区域作为网页视觉热区,通过文档对象模型得到候选正文信息块,在此基础上,给出候选正文信息块重要度函数确定网页正文信息。实验结果表明,该方法具有良好的性能。 A study is made on web pages extraction and a new extraction method for web pages content is suggested.Layout features and visual hot zone are used by it to determine web pages content.In the paper,first a part of web page’s region is selected as web page visual hot zone,the candidate content blocks are then obtained by documents object model.Furthermore,the significance function of the candidate content blocks is deduced to extracting content for web pages.Experimental results indicate that the proposed method has good performance.

作者邵俊

机构地区盐城工学院实验教学部

出处《计算机应用与软件》 CSCD 北大核心 2012年第6期199-201,共3页 Computer Applications and Software

关键词布局特征视觉热区文档对象模型候选正文信息块重要度函数 Layout features Visual hot zone Document object model Candidate content blocks Significance function

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Baumgartner R, Flesca S, Gottlob G with Lixto [ C ]//Proc. of the Intl. (VLDB'01) ,2001:119 - 128.
2Visual web information extraction Conf. on Very Large Data Bases Zhai Y, Liu B. Extracting Web Data Using Instance-Based Learning [ C ]//Proc. of the 6th Intl. Cone on Web Information Systems Engi- neering( WISE' 05 ) ,2005:318 - 331.
3Gupta S, Kaiser G, Neistadt D, et al. DOM-based Content Extraction of HTML Documents [ C]//proceedings 12th International World Wide Web Conference ,2003.
4Cai D,Yu S,Wen J R,et al. VIPS:A vision-based page segmentation al- gorithm[ R 1. Microsoft Technical Report, MSR-TR-2003-79. 2003 : 10.
5陈翰生,曾剑平,张世永.一种基于位置信息的Web页面分割方法[J].计算机应用与软件,2009,26(7):155-159. 被引量：3
6韩先培,刘康,赵军.基于布局特征与语言特征的网页主要内容块发现[J].中文信息学报,2008,22(1):15-21. 被引量：8
7王允,李弼程,林琛.基于网页布局相似度的Web论坛数据抽取[J].中文信息学报,2010,24(2):68-75. 被引量：9

二级参考文献34

1朱精南,赵明生.网页版面中区域几何信息的确定[J].计算机工程,2004,30(10):45-48. 被引量：4
2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
3高波.嵌入式浏览器开发.http://jserv.sayya.org/netbit/.
4Cobra HTML Parser.http://lobobrowser.org/cobra.jsp.
5HTML 4.01 Specification.http://www.w3.org/TR/REC-html40/.
6Vadrevu S,Gelgi F.Information Extraction from Web Pages Using Presentation Regularities and Domain Knowledge.World Wide Web,2007,10:157.
7Arasu A,Garcia-Molina H.Extracting Structured Data from Web Pages.International Conference on Management of Data,Proceedings of the 2003 ACM SIGMOD international conference on Management of data,2003.
8Deng Cai,Shipeng Yu,Ji-Rong Wen,et al.VIPS:a Vision-based Page Segmentation Algorithm.http://research.microsoft.com/～jrwen/jrwen_files/publications/VIPS_Technical%20Report.PDF 2003.
9Kovacevic M,Diligenti M,Gori M,et al.Recognition of Common Areas in a Web Page Using Visual Information:a possible application in a page classification.Second IEEE International Conference on Data Mining (ICDM'02),2002:250.
10Peifeng Xiang,Xin Yang,Yuanchun Shi.Effective Page Segmentation Combining Pattern Analysis and Visual Separators for Browsing on Small Screens.Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence (WI'06),2006:831.

共引文献16

1王允,李弼程,林琛.基于网页布局相似度的Web论坛数据抽取[J].中文信息学报,2010,24(2):68-75. 被引量：9
2施洋,张奇,黄萱菁.含有语义特征的网页新闻自动抽取[J].计算机工程,2010,36(7):173-175. 被引量：5
3李国华,昝红英.基于相似度的网页标题抽取方法[J].中文信息学报,2011,25(2):32-37. 被引量：6
4陈焱.网络舆情话题的数据立方体模型分析[J].图书情报工作,2011,55(24):75-79.
5郑敏.基于动态匹配的主题相关度判定算法[J].微电子学与计算机,2012,29(1):105-108. 被引量：1
6于洪涛,王冬青,张付志.基于网页分块和链接特征的卷期目录链接提取方法[J].情报学报,2012,31(7):686-693. 被引量：1
7伍杰华,倪振声,陈有青.一种基于逆序匹配重复模式的主题信息提取方法[J].计算机应用与软件,2013,30(4):88-91.
8伍杰华,倪振声.改进多分类器集成AdaBoost算法的Web主题分类[J].计算机应用与软件,2013,30(11):64-67. 被引量：2
9吴秦,胡丽娟,梁久祯.基于分块重要度和二维条件随机场的Web信息抽取[J].南京大学学报（自然科学版）,2014,50(1):79-86. 被引量：5
10陈艳秋,李海波.一种基于本体的关联规则挖掘方法[J].黑龙江大学自然科学学报,2014,31(6):825-830. 被引量：2

同被引文献22

1赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
2王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
3中国互联网络信息中心.第35次中国互联网络发展状况统计报告[R/OL].[2015-02-03].http://www.cnnic.neLcn/hlw.fzyj.
4孙承杰,关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息学报,2004,18(5):17-22.
5梅雪,程学旗,郭岩,张刚,丁国栋.一种全自动生成网页信息抽取Wrapper的方法[J].中文信息学报,2008,22(1):22-29. 被引量：21
6COWIE J, LEHNERT W. Information extraction [ J]. Communica- tions of the ACM, 1996, 39(1) : 80 -91.
7MOONEY R J, BUNESCU R. Mining knowledge from text using in- formation extraction [ J]. ACM SIGKDD Explorations Newsletter, 2005, 7(1): 3-10.
8CHANG C-H, LUI S-C. IEPAD : information extraction based on pattern discovery [ C]// WWW '01: Proceedings of the 10th Inter- national Conference on World Wide Web. New York: ACM, 2001: 681 - 688.
9BANKO M, CAFARELLA M J, SODERLAND S, et al. Open infor- mation extraction from the Web [ C]// IJCAI 2007: Proceedings of the 20th International Joint Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2007:2670-2676.
10BAUMGARTNER R, FLESCA S, GOTTLOB G. Visual Web infor- mation extraction with Lixlo [C]// VLDB '01: Proceedings of the 27th International Conference on Very Large Data Bases. San Fran- cisco, CA: Morgan Kaufmann, 2001:119 - 128.

引证文献1

1向菁菁,耿光刚,李晓东.一种新闻网页关键信息的提取算法[J].计算机应用,2016,36(8):2082-2086. 被引量：6

二级引证文献6

1刘志杰,潘洋.基于文本行特征的网页正文信息抽取方法研究[J].软件导刊,2017,16(10):15-18.
2李欣,李绍稳,许高建,林建彬.基于正则抽取的竹种数据结构化方法研究[J].计算机技术与发展,2018,28(6):147-150.
3何春辉.一种基于文本相似度的网页新闻标题自动抽取算法[J].湖南城市学院学报（自然科学版）,2019,28(1):58-61. 被引量：2
4吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
5王立志.网页信息抽取方法综述[J].网络安全技术与应用,2022(3):12-13. 被引量：2
6刘志强,都云程,施水才.基于改进的隐马尔科夫模型的网页新闻关键信息抽取[J].数据分析与知识发现,2019,3(3):120-128. 被引量：9

1朱铭亮,林丽华.选择性视觉注意与网页视觉热区分布的研究[J].绍兴文理学院学报（自然科学版）,2006,26(4):40-43. 被引量：1
2张婷婷,王伟军,黄英辉,刘凯,胡祥恩.基于屏幕视觉热区的中文短文本关键词实时提取方法[J].情报学报,2016,35(12):1313-1322. 被引量：2
3张芯,谢毓湘,栾悉道.一种基于局部二值模式的关键帧提取方法[J].计算机与现代化,2013(11):8-12. 被引量：2
4陈建彪.面向领域的Web信息自动抽取技术研究[J].计算机光盘软件与应用,2012,15(24):59-60.
5黄德才,钟艳平,胡嘉.基于主色调的图像布局特征提取及相似性匹配算法[J].浙江工业大学学报,2007,35(1):46-50. 被引量：1
6朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51. 被引量：2
7彭军,刘亚,吴敏,蒋富,张晓勇.基于状态预测的多智能体动态协作算法[J].系统仿真学报,2008,20(20):5511-5515. 被引量：7
8张敏.信息抽取技术在网页中的应用[J].中国城市经济,2011(20):150-151.
9张丽娜,黄云龙.RSNs中一种基于货币的数据转发算法[J].测控技术,2015,34(5):38-41.
10陈剑雄,张蓓.图像检索中颜色特征提取算法的改进[J].情报探索,2010(9):92-94.

计算机应用与软件

2012年第6期

浏览历史

内容加载中请稍等...

基于视觉热区的网页内容抽取方法被引量：1

参考文献7

二级参考文献34

共引文献16

同被引文献22

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于视觉热区的网页内容抽取方法 被引量：1

参考文献7

二级参考文献34

共引文献16

同被引文献22

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于视觉热区的网页内容抽取方法被引量：1