期刊文献+

基于DOM树结构的Blog网页自动识别 被引量:8

Automatic Blog recognition with DOM tree
下载PDF
导出
摘要 针对当前Internet中大量出现的博客网页,通过分析博客网页自身的结构特点和技术特征,结合网页的DOM节点特性,提出了基于DOM树分析和模式匹配的博客网页自动识别算法,并通过实验对本算法进行了验证,指出需进一步完善的研究内容和方向。 Aiming at the abundant advent of Blog pages on Internet, the paper analyzed the intrinsic features of Blog' s structure and techniques, combined them with DOM characteristics and then proposed an algrithm to automatically recognize Blog pages by means of DOM tree and pattern matching. The experiment shows the feasibility of the algorithm.
出处 《计算机应用研究》 CSCD 北大核心 2008年第5期1489-1491,共3页 Application Research of Computers
基金 重庆大学研究生科技创新基金资助项目(200701Y1A0280214)
关键词 博客网页 文档对象模型结构分析 特征发现 Blog page DOM structure analysis feature detection
  • 相关文献

参考文献7

  • 1LINDAHL C, BLOUNT E. WebLogs : simplifying Web publishing[ J ]. Computer, 2003,36 ( 11 ) : 114-116.
  • 2GLANCE N, HURST M, TOMOKIYO T. BlogPulse: automated trend discovery for WebLogs [ C]//Proc of the 13th International World Wide Web Conference. New York : ACM Press,2004,
  • 3ELGERSMAI E, DERIJKE M. Learning to recognize Blogs:a preliminary exploration [ C ]//Proc of EACL 2006 Workshop on New Text Wikis and Blogs and Other Dynamic Text Sources. 2006.
  • 4王娜.博客搜索引擎与传统搜索引擎的比较研究[J].图书情报工作,2006,50(7):54-57. 被引量:11
  • 5古平,朱庆生,李云峰.An error-driven learning algorithm for Bayesian network classifiers [ C ]//Proc of the 11th International Computer Conference. 2005:412 - 415.
  • 6HSU P L, LIU P C. Using ontology to map categories in Blog[ C]// Proc of International Workshop on Integrating AI and Data Mining. 2006:65-72.
  • 7RAGGETT D. Clean up your Web pages with HTML tidy[ EB/OL]. http ://tidy. sourceforge. net/docs/api.

二级参考文献15

  • 1海客.什么是博客.[2005—9—18].http://camel.haiblog.com/user1/7/archives/2005/1.html
  • 2kite.各类人士对博客的不同理解和定义.[2005—9—18].http://www.blogger.com
  • 3Blog Search Engines, [2005-09-28] http://www.bokee.com/new/display/47256.html
  • 4[2005-10-06].http://www.oao.cn
  • 5[2005-10-06],http://so.blogchinese.com
  • 6[2005-10-06].http://www.8fang.net
  • 7[2005-10-08],http://www.technorati.com
  • 8[2005-10-06],http://www.blogstreet.com
  • 9[2005-10-07],http://www.daypop.com
  • 10[2005-10-07].http://www.feedster.com

共引文献10

同被引文献63

引证文献8

二级引证文献27

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部