一种基于内容规则的网页去噪算法被引量：4

An Algorithm for Noise Reduction in Web Pages Based on a Group of Content-related Rules

下载PDF

导出

摘要提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。 This paper presents a new algorithm for the elimination of noise in Web pages based on a group of content - related rules. First, the authors present an algorithm which can peel off noises by iteratively comparing the tables on the same level of the page＇ s table tree. Next, an algorithm is presented in order to evaluate the similarity of anchor text＇ s topic and the content of the page. To some extent, as the new algorithm takes semantic facts of the Web pages into consideration, it acquires higher accuracy than pure rule - based algorithm, while requires lower time complexity. The result of experiment indicates that this algorithm performs very effectively when purifying great mass of Web pages.

作者王建冬王继民田飞佳

机构地区北京大学信息管理系

出处《现代图书情报技术》 CSSCI 北大核心 2008年第3期51-54,共4页 New Technology of Library and Information Service

基金国家科技支撑计划课题基金项目“知识组织系统的集成及服务体系研究与实现”(项目编号:2006BAH03B03-01)的研究成果之一

关键词网页净化编辑距离 Noise reduction in Web pages Levenshtein distance

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
2时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[C].第三届学生计算语言学研讨会.沈阳.2006.
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
4封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
5欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
6Lin S - H, Ho J - M. Discovering Informative Content Blocks from Web Documents [ C]. In:Proceedings of the ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining ( SIGKDD' 02). 2002.
7Cai D, Yu S, Wen J R, et al. VIPS: A Vision Based Page Segmentation Algorithm[ J ]. Microsoft Technical Report ( MSR - TR - 2003 -79), 2003:24.
8..CWT200g 说明[EB/OL]..http://www. cwirf. org/SharedRes/DataSet/CWT200g / CWT200g_intro. txt,,( 2006-04- 12). [2007 -12 - 17 ]..
9Baeza - Yates R, Ribeiro - Neto B. Modern Information Retrieval [ M ]. ACM press, 1999 : 148.
10第五届全国搜索引擎和网上信息挖掘学术研讨会[EB/OL].(2006-10-19).[2007-07-11].hRp://www.hainu.edu.cn/sewm2007/.

二级参考文献26

1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4Shian-Hua Lin, Jan-Ming Ho. Discovering informative content blocks from Web documents. In: SIGKDD, 2002
5Soumen Chakrabarti, Mukul M. Joshi and Vivek B. Tawde.Enhanced topic distillation using text, markup tags, and hyperlinks. In: SIGIR, 2001
6S. Chakrabarti, M. Joshi, and M. Subramanyam. Accelerated focused crawling through online relevance feedback. In :WWW, Hawaii. ACM, 2002
7Yiming Yang. Noise reduction in a statistical approach to text categorization. In: Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval, 1995
8Li Xiaoli and Shi Zhongzhi. Innovating Web page classification through reducing noise. Journal of Computer Science & Technology, 2002 ,17(1): 9 ～ 17
9http://162. 105.80.84/cgi-bin/getdirectory? ccode = 0
10http://e. pku. edu. cn

共引文献128

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
3孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
4郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
5陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
6胡冬梅.泰达图书馆个性化信息服务系统的探索与实践[J].现代图书情报技术,2004(10):92-95. 被引量：8
7孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
8翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
9张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6
10翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1

同被引文献107

1封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
4游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
5张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
6吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
7曾致远,张莉.基于向量空间模型的网页文本表示改进算法[J].计算机工程,2006,32(3):134-135. 被引量：10
8陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
9谷峰,刘晨曦,吴扬扬.基于序列数据挖掘的中文网页特征选择方法[J].山东大学学报（理学版）,2006,41(3):97-100. 被引量：2
10袁明轩,张选平,蒋宇,赵仲孟.一种基于同层网页相似性去除网页噪音的方法[J].计算机工程,2006,32(23):61-63. 被引量：3

引证文献4

1毛先领,何靖,闫宏飞.网页去噪:研究综述[J].计算机研究与发展,2010,47(12):2025-2036. 被引量：18
2郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
3梁建飞,吐尔根.依布拉音,田生伟,赛依旦.阿不力米提.汉维主题网页自动获取技术的研究[J].计算机应用与软件,2012,29(1):42-45. 被引量：2
4熊志斌,王冬,尹成国.舆情监测技术及应用综述[J].软件,2012,33(12):322-326. 被引量：2

二级引证文献22

1徐慧,窦子辉,杨林,陈雪.面向终端用户的网页过滤模板动态生成技术研究[J].计算机科学,2012,39(S2):90-93. 被引量：2
2郭淼霞.网页分类中的数据预处理方法研究[J].莆田学院学报,2011,18(5):82-86.
3郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
4干文敏,李俊,李剑.一种基于单模型的网页净化方法[J].计算机与现代化,2012(2):128-130.
5杨晓娟,廖晨辉.一种两阶段的多媒体教育资源网页消重方法[J].现代教育技术,2012,22(9):93-96.
6薛永大.网页分类技术研究综述[J].电脑知识与技术,2012,8(9):5958-5961. 被引量：2
7罗钊航,李旭伟.基于搜索结果的聚类算法[J].计算机与现代化,2012(11):35-38.
8熊志斌,王冬,尹成国.舆情监测技术及应用综述[J].软件,2012,33(12):322-326. 被引量：2
9胡飞,黄军建,成平广,席海,李军.基于统计的网页净化模板生成算法[J].科学技术与工程,2013,21(4):1060-1063.
10罗元.网页净化及去重研究综述[J].现代计算机,2013,19(10):3-7. 被引量：1

1洪学银.数据挖掘约简算法的应用[J].职业技术,2014,0(4):144-144.
2龚静,胡平霞,胡灿.用于文本分类的特征项权重算法改进[J].计算机技术与发展,2014,24(9):128-132. 被引量：9
3王一帆.软件工程中的需求分析[J].消费电子,2012(11X):39-39. 被引量：1
4郭世龙,王晨升.主题爬虫设计与实现[J].软件,2013,34(12):107-109. 被引量：8
5陶亮.神经网络在网络故障诊断中的应用研究[J].计算机光盘软件与应用,2012,15(15):179-179. 被引量：1
6马亨冰,林琦.计算机数据录入,净化处理技术探讨[J].福建电脑,1991(3):4-7.
7贝克欧科技中国2015年新产品发布继续引领压缩空气净化处理行业[J].压缩机技术,2015,0(A01):2-6.
8杨立瑞,周济.工程图纸图像净化处理[J].华中理工大学学报,1995,23(6):44-47. 被引量：1
9朱泽德,李淼,张健,曾伟辉,曾新华.一种基于LDA模型的关键词抽取方法[J].中南大学学报（自然科学版）,2015,46(6):2142-2148. 被引量：15
10施磊磊,施化吉.海量数据存储模型的研究[J].无线通信技术,2014,23(4):32-35.

现代图书情报技术

2008年第3期

浏览历史

内容加载中请稍等...

一种基于内容规则的网页去噪算法被引量：4

参考文献11

二级参考文献26

共引文献128

同被引文献107

引证文献4

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

一种基于内容规则的网页去噪算法 被引量：4

参考文献11

二级参考文献26

共引文献128

同被引文献107

引证文献4

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

一种基于内容规则的网页去噪算法被引量：4