任意网页的主题信息抽取研究被引量：6

A General Theme Information Extraction for Webpages

下载PDF

导出

摘要目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过"模板库匹配—基于模板抽取—网页分类—全自动抽取"四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合。实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架。 Most of existing information extraction methods are focused on a specific type of webpages,rather than applicable to all webpages.In this paper,we propose a general framework based on fusion mechanism to enable the extraction of the theme information of all webpages.This framework combines the automatic information extraction strategy and the template detection strategy through four steps：template matching,template based extraction,web page classification and automatic extraction.The experiments show that the proposed strategy can lead to an additional performance improvement in the precision of extraction.

作者张儒清郭岩刘悦俞晓明程学旗

机构地区中国科学院计算技术研究所中国科学院网络数据科学与技术重点实验室中国科学院大学

出处《中文信息学报》 CSCD 北大核心 2017年第5期127-137,共11页 Journal of Chinese Information Processing

基金国家重点基础研究发展计划("973"计划)(2014CB340401 2013CB329606) 科技部重点研发计划(2016QY02D0405) 国家自然科学基金(61232010 61472401 61425016 61203298) 中国科学院青年创新促进会优秀会员项目(20144310 2016102)

关键词任意网页主题信息网页分类实用价值 any page theme information web page classification practical value

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘春梅,郭岩,俞晓明,赵岭,刘悦,程学旗.针对开源论坛网页的信息抽取研究[J].计算机科学与探索,2017,11(1):114-123. 被引量：10

二级参考文献9

1陈挺,刘嘉勇,夏天,范刚.基于平板型Web论坛的信息抽取研究[J].成都信息工程学院学报,2009,24(1):1-4. 被引量：9
2张红云,李萍萍.一种基于层次聚类的k均值算法研究[J].微计算机信息,2010,26(12):228-229. 被引量：7
3李睿,曾俊瑀,周四望.基于局部标签树匹配的改进网页聚类算法[J].计算机应用,2010,30(3):818-820. 被引量：14
4韩普,王泽.基于重复模式的论坛信息抽取研究[J].南京师范大学学报（工程技术版）,2010,10(3):74-77. 被引量：4
5刘云峰.一种基于标签路径聚类的文本信息抽取算法[J].计算机应用与软件,2010,27(11):199-202. 被引量：2
6杨舟,卓林,赵朋朋,崔志明.一种针对商品数据记录的自动抽取方法[J].计算机工程,2010,36(23):262-265. 被引量：8
7黄武冠,朱明,尹文科.基于DOM树和视觉特征的网页信息自动抽取[J].计算机工程,2013,39(10):309-312. 被引量：6
8范意兴,郭岩,李希鹏,赵岭,刘悦,俞晓明,程学旗.一种基于网页块特征的多级网页聚类方法[J].山东大学学报（理学版）,2015,50(7):1-8. 被引量：1
9余钧,郭岩,张凯,刘林,刘悦,俞晓明,程学旗.FPC:大规模网页的快速增量聚类[J].中文信息学报,2016,30(2):182-188. 被引量：3

共引文献9

1王鑫.分布式聚合型网站群管理系统的研究与实践[J].电子科技,2017,30(6):122-123. 被引量：1
2万福成,马宁,何向真.融合事件特征及语义角色标注的藏文信息抽取技术[J].广西师范大学学报（自然科学版）,2018,36(2):18-23. 被引量：1
3程月.大数据资源中用户需求信息定向提取仿真[J].计算机仿真,2018,35(5):422-425. 被引量：4
4刘锐,谭文韬,付园斌,王红.一种通用论坛信息提取方法[J].小型微型计算机系统,2018,39(7):1398-1404.
5朱子骁,邹艳珍,华晨彦,沈琦,赵俊峰.基于StackOverflow数据的软件功能特征挖掘组织方法[J].软件学报,2018,29(8):2210-2225. 被引量：3
6张潇文.网页设计中计算机图像处理技术应用探讨[J].无线互联科技,2018,15(24):74-76. 被引量：3
7黄秀常.基于广义线性模型的网页信息搜索错误概率分析[J].菏泽学院学报,2019,41(2):14-20.
8王立志.网页信息抽取方法综述[J].网络安全技术与应用,2022(3):12-13. 被引量：2
9张少伟,王鑫,陈子睿,王林,徐大为,贾勇哲.有监督实体关系联合抽取方法研究综述[J].计算机科学与探索,2022,16(4):713-733. 被引量：15

同被引文献61

1封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
2谭雯茵.文献主题词与关键词的标引检索发展趋势[J].科技情报开发与经济,2006,16(17):66-67. 被引量：4
3韩忠明,李文正,莫倩.有效HTML文本信息抽取方法的研究[J].计算机应用研究,2008,25(12):3568-3571. 被引量：15
4曹冬林,廖祥文,许洪波,白硕.基于网页格式信息量的博客文章和评论抽取模型[J].软件学报,2009,20(5):1282-1291. 被引量：15
5刘守群,朱明,谭晓彬.一种基于树匹配的网页语义块挖掘算法[J].小型微型计算机系统,2009,30(8):1541-1545. 被引量：7
6李亚子,方安,陈薇,朱峰.Web页面最大有意义节点发现算法研究[J].现代图书情报技术,2009(10):22-27. 被引量：3
7王舒,朱敏,张明,牛颢,赵瑜.一种基于特征符号的网页主题信息抽取方法[J].计算机应用研究,2009,26(12):4539-4541. 被引量：4
8师雪霖,程文涛.Web信息抽取与语义检索框架[J].郑州大学学报（理学版）,2010,42(1):29-32. 被引量：4
9袁鸿雁.基于本体的Web表格信息抽取技术的研究[J].青岛大学学报（自然科学版）,2010,23(2):47-51. 被引量：3
10聂卉,黄贵鹏.树编辑距离在Web信息抽取中的应用与实现[J].现代图书情报技术,2010(5):29-34. 被引量：8

引证文献6

1田丽.情报分析中提取主题信息核心要素的模型及方法[J].计算机与现代化,2018(10):22-25.
2刘博文,王雨琪,林果园.基于结构化文档的钓鱼网站检测算法[J].计算机工程与设计,2019,40(10):2791-2798. 被引量：3
3崔彦青.动态分块网页主题信息准确自动提取仿真[J].计算机仿真,2019,36(10):349-352. 被引量：2
4吉晓香,蒋晔.基于数据属性的无线网络空间嵌入信息提取[J].计算机仿真,2020,37(9):347-351.
5文鑫涛,郑通彦,王钟浩,李华玥,李晨曦,吕文超.面向历史灾害地震的Web信息精确抽取与分析方法[J].中国地震,2021,37(4):819-828. 被引量：4
6李志义,沈之锐.基于重复模式识别的网页信息抽取研究[J].情报科学,2019,37(3):88-92. 被引量：6

二级引证文献15

1王浩.彩色图像视觉目标区域轨迹点跟踪方法[J].周口师范学院学报,2020(2):129-133.
2印杰,蒋宇翔,牛博威,严梓宸,郭延文.基于深度学习的网页篡改远程检测研究[J].南京理工大学学报,2020,44(1):49-54. 被引量：6
3朱琪.基于网络爬虫的舆情分析预警系统设计[J].电子设计工程,2020,28(22):56-60. 被引量：10
4邓子云.一种通过筛选和位置感知精准提取资讯类网页标题的方法[J].信息化研究,2021,47(4):8-15.
5陆向艳,刘峻.网络钓鱼攻击分析和防范探讨[J].数字通信世界,2022(1):179-181. 被引量：2
6钟爱,梁小青,肖梅,向黎藜,段凯,李竹.基于正则算法和命名实体识别模型的95598工单结构化信息自动提取[J].电力大数据,2021,24(12):38-45. 被引量：2
7孙国君.基于数据驱动模型的医疗器械信息综合管理系统[J].中国医疗设备,2022,37(3):92-96. 被引量：2
8李玉琦,李龙.基于模式识别算法的网页重复信息抽取仿真[J].计算机仿真,2022,39(3):439-443. 被引量：3
9赵蔷.基于Python爬虫的旅游网站数据分析与可视化[J].电子设计工程,2022,30(16):152-155. 被引量：7
10柏志安,廖健,曾剑平.基于DOM树与模板的自适应网络信息抽取方法[J].计算机应用与软件,2022,39(8):15-20. 被引量：2

1翟悦,牛文颖.融合慕课的高校创新创业教育课程改革研究[J].时代教育,2017,0(23):36-36. 被引量：7
2程颖,焦攀科,戴飞,甘会哲.区域异构医疗数据集成与交换技术的研究和实现[J].信息系统工程,2017,30(11):96-98. 被引量：2
3赵丹宁,牟冬梅,斯琴.研究型科技文献的实验数据自动抽取研究--以药物代谢动力学文献为例[J].图书馆建设,2017(12):33-38. 被引量：3
4丁岩,努尔布力.基于URL混淆技术识别的钓鱼网页检测方法[J].计算机工程与应用,2017,53(20):75-82. 被引量：4
5白如江,冷伏海,廖君华.一种基于科技规划文本的研究前沿主题地图构建方法[J].图书情报工作,2017,61(23):114-121. 被引量：7
6韦佳佳.基于HTML5语义化标签的Web文本提取技术[J].贵阳学院学报（自然科学版）,2017,12(3):25-28. 被引量：3
7彭籍冲,王红斌.基于跨语言信息投影的泰语新闻事件抽取[J].信息技术,2017,41(12):10-13. 被引量：1
8孙丽莉,张小刚.基于WordNet的概念语义相似度的计算方法[J].统计与决策,2017,33(23):79-82. 被引量：4
9刘蓓琳,张琪.基于购买决策过程的电子商务用户画像应用研究[J].商业经济研究,2017(24):49-51. 被引量：15
10公冶小燕,林培光,任威隆,张晨,张春云.基于改进的TF-IDF算法及共现词的主题词抽取算法[J].南京大学学报（自然科学版）,2017,53(6):1072-1080. 被引量：17

中文信息学报

2017年第5期

浏览历史

内容加载中请稍等...

任意网页的主题信息抽取研究被引量：6

参考文献1

二级参考文献9

共引文献9

同被引文献61

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

任意网页的主题信息抽取研究 被引量：6

参考文献1

二级参考文献9

共引文献9

同被引文献61

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

任意网页的主题信息抽取研究被引量：6