摘要
目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自动抽取"四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合。实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架。
Most of existing information extraction methods are focused on a specific type of webpages,rather than applicable to all webpages.In this paper,we propose a general framework based on fusion mechanism to enable the extraction of the theme information of all webpages.This framework combines the automatic information extraction strategy and the template detection strategy through four steps:template matching,template based extraction,web page classification and automatic extraction.The experiments show that the proposed strategy can lead to an additional performance improvement in the precision of extraction.
出处
《中文信息学报》
CSCD
北大核心
2017年第5期127-137,共11页
Journal of Chinese Information Processing
基金
国家重点基础研究发展计划("973"计划)(2014CB340401
2013CB329606)
科技部重点研发计划(2016QY02D0405)
国家自然科学基金(61232010
61472401
61425016
61203298)
中国科学院青年创新促进会优秀会员项目(20144310
2016102)
关键词
任意网页
主题信息
网页分类
实用价值
any page
theme information
web page classification
practical value