期刊文献+

一种基于内容规则的网页去噪算法 被引量:4

An Algorithm for Noise Reduction in Web Pages Based on a Group of Content-related Rules
下载PDF
导出
摘要 提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。 This paper presents a new algorithm for the elimination of noise in Web pages based on a group of content - related rules. First, the authors present an algorithm which can peel off noises by iteratively comparing the tables on the same level of the page' s table tree. Next, an algorithm is presented in order to evaluate the similarity of anchor text' s topic and the content of the page. To some extent, as the new algorithm takes semantic facts of the Web pages into consideration, it acquires higher accuracy than pure rule - based algorithm, while requires lower time complexity. The result of experiment indicates that this algorithm performs very effectively when purifying great mass of Web pages.
出处 《现代图书情报技术》 CSSCI 北大核心 2008年第3期51-54,共4页 New Technology of Library and Information Service
基金 国家科技支撑计划课题基金项目“知识组织系统的集成及服务体系研究与实现”(项目编号:2006BAH03B03-01)的研究成果之一
关键词 网页净化 编辑距离 Noise reduction in Web pages Levenshtein distance
  • 相关文献

参考文献11

  • 1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量:57
  • 2时达明,林鸿飞,杨志豪.基于网页框架和规则的网页噪音去除方法[C].第三届学生计算语言学研讨会.沈阳.2006.
  • 3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报(自然科学版),2004,32(z1):84-87. 被引量:21
  • 4封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报(自然科学版),2005,45(S1):1767-1771. 被引量:8
  • 5欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报(自然科学版),2005,45(S1):1743-1747. 被引量:70
  • 6Lin S - H, Ho J - M. Discovering Informative Content Blocks from Web Documents [ C]. In:Proceedings of the ACM SIGKDD Int Conf on Knowledge Discovery & Data Mining ( SIGKDD' 02). 2002.
  • 7Cai D, Yu S, Wen J R, et al. VIPS: A Vision Based Page Segmentation Algorithm[ J ]. Microsoft Technical Report ( MSR - TR - 2003 -79), 2003:24.
  • 8..CWT200g 说明[EB/OL]..http://www. cwirf. org/SharedRes/DataSet/CWT200g / CWT200g_intro. txt,,( 2006-04- 12). [2007 -12 - 17 ]..
  • 9Baeza - Yates R, Ribeiro - Neto B. Modern Information Retrieval [ M ]. ACM press, 1999 : 148.
  • 10第五届全国搜索引擎和网上信息挖掘学术研讨会[EB/OL].(2006-10-19).[2007-07-11].hRp://www.hainu.edu.cn/sewm2007/.

二级参考文献26

  • 1荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报(自然科学版),2004,32(z1):84-87. 被引量:21
  • 2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量:57
  • 3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量:24
  • 4Shian-Hua Lin, Jan-Ming Ho. Discovering informative content blocks from Web documents. In: SIGKDD, 2002
  • 5Soumen Chakrabarti, Mukul M. Joshi and Vivek B. Tawde.Enhanced topic distillation using text, markup tags, and hyperlinks. In: SIGIR, 2001
  • 6S. Chakrabarti, M. Joshi, and M. Subramanyam. Accelerated focused crawling through online relevance feedback. In :WWW, Hawaii. ACM, 2002
  • 7Yiming Yang. Noise reduction in a statistical approach to text categorization. In: Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval, 1995
  • 8Li Xiaoli and Shi Zhongzhi. Innovating Web page classification through reducing noise. Journal of Computer Science & Technology, 2002 ,17(1): 9 ~ 17
  • 9http://162. 105.80.84/cgi-bin/getdirectory? ccode = 0
  • 10http://e. pku. edu. cn

共引文献128

同被引文献107

引证文献4

二级引证文献22

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部