结合网页结构与文本特征的正文提取方法被引量：15

Content Extraction Method Combining Web Page Structure and Text Feature

下载PDF

导出

摘要网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 There are both relevant information and irrelevant information in a Web page, the irrelevant information brings some negative influence to their classification, storage and retrieve. In order to reduce the influence, aiming at theme-related Web pages, this paper proposes a new method to extract the content of Web pages based on their text and structural features. It removes those unrelated tags in the Web page by regular expressions, and segments the Web into blocks according to Web pages structure and the text information. By analyzing the text blocks and link blocks of the Web, it only retains the main content of the page; those noisy parts are deleted from the page. Experimental result shows that the method is feasible and of high accuracy in page cleaning and content extraction.

作者熊忠阳蔺显强张玉芳牙漫

机构地区重庆大学计算机学院

出处《计算机工程》 CAS CSCD 2013年第12期200-203,210,共5页 Computer Engineering

基金国家自然科学基金资助项目(71102065)

关键词正文提取网页去噪网页分块主题爬行信息检索 WEB挖掘 content extraction Web page denoising Web page segmentation subject crawling information retrieve Web mining

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1Gibson D,Punera K,Tomkins A.The Volume and Evolution of Web Page Templates[C]//Proc.of the 14th International Conference on World Wide Web.New York,USA:ACM Press,2005.
2Rahman A,Alam H,Hartono R.Content Extraction from HTML Documents[C]//Proc.of the 1st International Workshop on Web Document Analysis.New York,USA:ACM Press,2001.
3Wang Jiying,Lochovsky F H.Data-rich Section Extraction from HTML Pages[C]//Proc.of the 3rd International Conference on Web Information Systems Engineering.Washington D.C.,USA:IEEE Computer Society,2002.
4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
5Sun Fei,Song Dandan,Liao Lejian.Dom Based Content Extraction via Text Density[C]//Proc.of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2011.
6Weninger T,Hsu W H,Han J.CETR:Content Extraction via Tag Ratios[C]//Proc.of the 19th International Conference on World Wide Web.New York,USA:ACM Press,2010.
7Abdul P,Qureshi R,Memon N.Hybrid Model of Content Extraction[J].Journal of Computer and System Sciences,2012,78(4):1248-1257.
8Cai Deng,Yu Shipeng,Wen Jirong,et al.VIPS:A Vision Based Page Segmentation Algorithm[EB/OL].(2003-10-20).http://research.microsoft.com/apps/pubs/default.aspx?id=70027.
9Song Mingqiu,WU Xintao.Content Extraction from Web Pages Based on Chinese Punctuation Number[C]//Proc.of International Conference on Wireless Communications,Networking and Mobile Computing.[S.1.]:IEEE Press,2007.
10张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57

二级参考文献23

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5Shian-Hua Lin, Jan-Ming Ho. Discovering informative content blocks from Web documents. In: SIGKDD, 2002
6Soumen Chakrabarti, Mukul M. Joshi and Vivek B. Tawde.Enhanced topic distillation using text, markup tags, and hyperlinks. In: SIGIR, 2001
7S. Chakrabarti, M. Joshi, and M. Subramanyam. Accelerated focused crawling through online relevance feedback. In :WWW, Hawaii. ACM, 2002
8Yiming Yang. Noise reduction in a statistical approach to text categorization. In: Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval, 1995
9Li Xiaoli and Shi Zhongzhi. Innovating Web page classification through reducing noise. Journal of Computer Science & Technology, 2002 ,17(1): 9 ～ 17
10http://162. 105.80.84/cgi-bin/getdirectory? ccode = 0

共引文献110

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
3孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
4郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
5陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
6胡冬梅.泰达图书馆个性化信息服务系统的探索与实践[J].现代图书情报技术,2004(10):92-95. 被引量：8
7孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
8翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
9张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6
10翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1

同被引文献97

1郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4
2金玉坚,刘焱.基于用户的个性化智能搜索引擎[J].现代情报,2005,25(7):170-172. 被引量：9
3陈康,许婷,戴文俊,武港山.基于Web的全文搜索引擎的设计与实现[J].计算机工程,2005,31(20):51-53. 被引量：7
4许晓昕,李安贵.一种基于TFIDF的网络聊天关键词提取算法[J].计算机技术与发展,2006,16(3):122-123. 被引量：15
5冯振明.Google核心——PageRank算法探讨[J].计算机技术与发展,2006,16(7):82-84. 被引量：8
6胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
7陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
8崔洋,贺亚茹.MySQL数据库应用从入门到精通[M].北京:中国铁道出版社,2013:85-101.
9Cha M,Haddadi H,Benevenuto F,et al.Measuring user influence in Twitter:the million follower fallacy[C]//ICWSM,2010:10-17.
10Weng J,Lim E P,Jiang J,et al.Twitter rank:finding topicsensitive influential winterers[C]//Davison B D,Suel T,Craswell N,eds.Proceedings of the Third International Conference on Web Search and Web Data Mining(WSDM),New York,NY,USA,2010:261-270.

引证文献15

1穆翠霞,周琳琳.电子商务网络资讯管理系统的设计与实现[J].电脑开发与应用,2014,27(4):12-15.
2王建斌,刘臻,胡昌振,单纯,钟松延.基于静态分析的缺陷模式匹配研究[J].信息安全研究,2018,4(4):359-363. 被引量：1
3秦玉海,刘禄源,高浩航,刘晟桥.网页恶意挖矿行为的检测及防范[J].网络安全技术与应用,2018(12):51-53. 被引量：2
4王庆福.基于PageRank算法的文本关键词权重计算研究[J].网络新媒体技术,2015,4(3):37-41.
5吴飞飞,姬东鸿,吕超镇.基于LDA和CTR的用户模型分析[J].计算机工程与应用,2016,52(6):50-54. 被引量：1
6袁琰伟,陆培军.一种面向高校招投标公告主题爬虫的设计[J].软件导刊,2018,17(2):117-119.
7周雪,刘乃文.引入主题链接块因子的候选链接搜索策略研究[J].计算机与数字工程,2018,46(5):874-878. 被引量：1
8王海涌,冯兆旭,杨海波,张津栋.基于结构相似网页聚类的正文提取算法研究[J].计算机工程与应用,2018,54(11):122-127. 被引量：2
9刘锐,谭文韬,付园斌,王红.一种通用论坛信息提取方法[J].小型微型计算机系统,2018,39(7):1398-1404.
10张文超,胡玉兰.基于PyQt的全文搜索引擎平台开发[J].软件导刊,2018,17(9):132-135. 被引量：2

二级引证文献25

1张焕成,林正奎.词向量提取评论观点句方法研究[J].西部皮革,2017,39(10):271-273.
2张焕成.基于词向量的手机网评观点句提取方法研究[J].信息通信,2017,30(2):32-35.
3陈欢,黄勃,刘文竹,高永彬,姜晓燕.基于Python的网络新闻爬虫与检索[J].软件导刊,2019,18(5):168-171. 被引量：10
4傅思维,陈桂芬,赵姗.基于大数据技术的农产品智能推荐方法研究[J].东北农业科学,2020,45(6):140-144.
5陈前华,胡嘉杰,江吉,吴豪.采用长短期记忆网络的深度学习方法进行网页正文提取[J].计算机应用,2021,41(S01):20-24. 被引量：4
6胡家明.基于物联网检验检测信息化平台设计[J].智能计算机与应用,2021,11(5):147-151. 被引量：1
7李国静,尹天阳,张兴睿.基于PAM概率主题模型的赌博网站检测方法[J].计算机应用与软件,2021,38(9):167-172. 被引量：4
8余杨奎,王旅,李婉茹,程振林,刘洁.一种基于页面赋权的网页内容提取方法[J].通化师范学院学报,2021,42(10):20-28.
9高见,孙懿,王润正,袁得嵛.基于机器学习的浏览器挖矿检测模型研究[J].计算机工程与应用,2021,57(22):125-130. 被引量：2
10邓子云.一种通过筛选和位置感知精准提取资讯类网页标题的方法[J].信息化研究,2021,47(4):8-15.

1杨丽萍.网页正文提取技术的分析与研究[J].计算机光盘软件与应用,2012,15(22):115-116. 被引量：1
2王瑞,周喜,李晓.基于正文相关度的维吾尔网页正文提取[J].计算机工程,2012,38(21):153-156. 被引量：2
3欧阳佳,林丕源.基于DBSCAN算法的网页正文提取[J].计算机工程,2011,37(3):64-66. 被引量：6
4姬鑫,钟诚.基于分块的新闻网页信息抽取算法[J].计算机应用与软件,2015,32(4):317-322. 被引量：6
5彭冬,蔡皖东.面向Web论坛的网络信息获取技术及系统实现[J].计算机工程与科学,2011,33(1):157-160. 被引量：7
6龙珑,邓伟.绿色网络网页正文内容提取算法[J].计算机工程,2013,39(7):252-256. 被引量：1
7姜子进,吐尔根.依布拉音,赛依旦.阿不力米提,田生伟.Web环境下自动获取汉、维语料库[J].计算机应用与软件,2011,28(12):19-21. 被引量：1
8付华峥,陈翀,向勇,刘春.分布式大数据采集关键技术研究与实现[J].广东通信技术,2015,35(10):7-10. 被引量：15
9苏秀芝.基于网页Title标签的正文提取方法[J].福建电脑,2016,32(4):43-44.
10杨钦,杨沐昀.一种基于标点密度的网页正文提取方法[J].智能计算机与应用,2015,5(4):42-44. 被引量：2

计算机工程

2013年第12期

浏览历史

内容加载中请稍等...

结合网页结构与文本特征的正文提取方法被引量：15

参考文献11

二级参考文献23

共引文献110

同被引文献97

引证文献15

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

结合网页结构与文本特征的正文提取方法 被引量：15

参考文献11

二级参考文献23

共引文献110

同被引文献97

引证文献15

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

结合网页结构与文本特征的正文提取方法被引量：15