摘要
针对当前Internet中大量出现的博客网页,通过分析博客网页自身的结构特点和技术特征,结合网页的DOM节点特性,提出了基于DOM树分析和模式匹配的博客网页自动识别算法,并通过实验对本算法进行了验证,指出需进一步完善的研究内容和方向。
Aiming at the abundant advent of Blog pages on Internet, the paper analyzed the intrinsic features of Blog' s structure and techniques, combined them with DOM characteristics and then proposed an algrithm to automatically recognize Blog pages by means of DOM tree and pattern matching. The experiment shows the feasibility of the algorithm.
出处
《计算机应用研究》
CSCD
北大核心
2008年第5期1489-1491,共3页
Application Research of Computers
基金
重庆大学研究生科技创新基金资助项目(200701Y1A0280214)