期刊文献+

任意网页的主题信息抽取研究 被引量:6

A General Theme Information Extraction for Webpages
下载PDF
导出
摘要 目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自动抽取"四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合。实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架。 Most of existing information extraction methods are focused on a specific type of webpages,rather than applicable to all webpages.In this paper,we propose a general framework based on fusion mechanism to enable the extraction of the theme information of all webpages.This framework combines the automatic information extraction strategy and the template detection strategy through four steps:template matching,template based extraction,web page classification and automatic extraction.The experiments show that the proposed strategy can lead to an additional performance improvement in the precision of extraction.
出处 《中文信息学报》 CSCD 北大核心 2017年第5期127-137,共11页 Journal of Chinese Information Processing
基金 国家重点基础研究发展计划("973"计划)(2014CB340401 2013CB329606) 科技部重点研发计划(2016QY02D0405) 国家自然科学基金(61232010 61472401 61425016 61203298) 中国科学院青年创新促进会优秀会员项目(20144310 2016102)
关键词 任意网页 主题信息 网页分类 实用价值 any page theme information web page classification practical value
  • 相关文献

参考文献1

二级参考文献9

共引文献9

同被引文献61

引证文献6

二级引证文献15

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部