基于HTMLParser的Web文献信息提取被引量：3

Information Extraction of Web Document Based on Htmlparser

下载PDF

导出

摘要基于HTMLParser对网页进行解析,可抽取标签间的Link、image、meta和title等信息。使用HTMLParser来提取Web文献中的题名、关键字、摘要、作者、来源等信息,清洗后存入MySql数据库当中,以备后续数据挖掘使用。对此进行了论述。 Web anlalyzing based on HTMLParser could extract the information of Link,image,meta and title of the links.Using HTMLParser extracts the information of title,key words,abstract,author,sources,ect.in Web document,when store in MySql database after cleaning,prepare for follow-up data mining.

作者龚真平

机构地区西南交通大学软件学院

出处《软件导刊》 2011年第2期14-15,共2页 Software Guide

关键词 HTMLPARSER Web文献信息提取 HTMLParser Web Document Information Extraction

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1黄胜忠.基于XML的网上业务系统的数据存储与交换[J].软件导刊,2010,9(9):172-174. 被引量：1

二级参考文献10

1孙鹏文,张敏,叶奇.基于XML的协同仿真信息集成与共享技术研究[J].组合机床与自动化加工技术,2007(3):109-112. 被引量：3
2苏鹏,李钊,王文,刘学理.基于SSIS企业数据集成系统的技术实现[J].计算机应用与软件,2008,25(9):179-180. 被引量：4
3张建,刘更,贺朝霞,王海伟.基于XML实现Java内容仓库和关系型数据库的双向映射[J].计算机应用研究,2009,26(1):211-214. 被引量：7
4熊才权,李永辉.基于XML的空间数据互操作与可视化的研究与应用[J].计算机与数字工程,2009,37(6):69-72. 被引量：2
5孙铁利,古丽娜孜.基于XML的Web数据挖掘模型的探讨[J].新疆大学学报（自然科学版）,2009,26(3):349-354. 被引量：1
6尹建璋.基于XML的应用层数据交换技术的研究[J].计算机与现代化,2009(8):97-100. 被引量：12
7成益鑫,梁龙,吴建波,冷文浩.基于XML数字化造船领域标准接口解决方案[J].计算机工程与设计,2009,30(18):4323-4325. 被引量：2
8王海燕,周思方,支建飞.基于XML元数据交换的电子试卷管理系统[J].计算机工程,2009,35(19):272-273. 被引量：9
9蒋宏潮,王大亮,班晓娟,阮进喜.基于XML的Web数据半自动采集[J].计算机工程,2009,35(21):51-53. 被引量：4
10林建宇,张国俊.一种异构数据库集成的方法[J].南京理工大学学报,2002,26(5):522-525. 被引量：14

同被引文献18

1中国互联网络信息中心.中国互联网络发展状况统计报告.
2The Apache Software Foundation. Apache HttpComponents[OL].http://hc.apache.org/,2012.
3SOURCE.NET. HTML Parser[OL].http://htmlparser.sourceforge.net/,2006.
4汪建伟,杨冬青,高军,王腾蛟.一种基于分类算法的网页信息提取方法[J].计算机科学,2008,35(3):91-93. 被引量：11
5桂林斌.基于HtmlParser抽取动态异构Web信息的研究与实现[J].计算机与数字工程,2009,37(7):161-164. 被引量：4
6张丽娜,陈俊杰,赵丽欣.基于HTMLParser的BT种子网页信息抽取[J].电脑开发与应用,2010,23(3):59-61. 被引量：4
7陈晓云,宋伟国,苗胜法.基于DOM的中文人物WEB信息提取[J].微计算机信息,2010,26(36):15-17. 被引量：2
8张云雷,周军,刘海霞.一种基于DOM的Web关键信息提取方法[J].现代计算机（中旬刊）,2011(6):3-6. 被引量：3
9赵晓峰,凌天斌,彭波,王转妮.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012(2):38-39. 被引量：1
10萨支欣.国内外网站内容管理系统比较[J].情报探索,2012(2):85-87. 被引量：5

引证文献3

1杨同江,吴伟明,谷勇浩.基于中间件技术的移动OA模型设计和实现[J].软件,2012,33(10):9-12. 被引量：2
2魏小辉.基于Web的内容管理系统的研究[J].信息通信,2013,26(6):96-97. 被引量：1
3郭培铭.基于文献特征提取网页信息的算法研究[J].现代计算机,2019,25(2):37-40.

二级引证文献3

1周光明.部委机关办公自动化系统建设与应用浅析[J].软件,2013,34(10):33-35. 被引量：4
2段建勇,高会娟.IBATIS框架下文本抽取系统的研究[J].电子科学技术,2015,2(2):214-218.
3董恒竞.一种企业移动应用平台架构设计[J].软件,2016,37(1):136-138. 被引量：8

1王大玲,于戈,鲍玉斌.基于最长顺序频繁词组的Web文献检索结构[J].软件学报,2006,17(10):2096-2105. 被引量：1
2Wallace Koehler,张莹(译).数字化图书馆和WWW站点及其页面的持续性[J].现代图书情报技术,2000(6):75-79.
3胡健,董跃华,杨炳儒.基于关键词的WEB文献自动跟踪系统的实现方法[J].南昌大学学报（理科版）,2008,32(3):300-303. 被引量：2
4张媚,黄穗,邓彩细.面向科研团队的Web文献协作管理系统构建[J].微计算机应用,2010,31(7):58-62. 被引量：1
5苏瑞竹.浅论数字图书馆和WWW网站与网页的持久性[J].图书馆界,2001(3):1-6. 被引量：1
6马创新.WEB文献资料采集系统[J].计算机系统应用,2012,21(7):9-12. 被引量：2

软件导刊

2011年第2期

浏览历史

内容加载中请稍等...

基于HTMLParser的Web文献信息提取被引量：3

参考文献1

二级参考文献10

同被引文献18

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于HTMLParser的Web文献信息提取 被引量：3

参考文献1

二级参考文献10

同被引文献18

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于HTMLParser的Web文献信息提取被引量：3