期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
基于HtmlParser的网页信息提取 被引量:4
1
作者 李伟 黄颖 《兵工自动化》 2007年第7期41-41,56,共2页
基于HTMLParser对HTML进行网页解析,可抽取标签间的Link、image、meta和title等信息。即使用HtmlParser来提取网页当中的超链接信息,提取首页URL信息,分析所有URL对应的页面并提取Link信息,信息清洗后存入SQL数据库当中,以备后续工作使用。
关键词 htmlparser 信息抽取 网页解析
下载PDF
基于HTMLParser信息提取的网络爬虫设计 被引量:7
2
作者 郑力明 易平 《微计算机信息》 2009年第15期123-124,69,共3页
无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计。本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究。通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜... 无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计。本文结合HTMLParser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究。通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜索器,并基于HTMLParser的信息提取方法,从种子页面中提取出与生活类主题相关的目标URL。经实验测试证明该爬虫的爬准率达93.552%,爬全率达96.720%,表明该网络爬虫是有效的,达到中等规模的垂直搜索企业级应用的要求。 展开更多
关键词 网络爬虫 垂直搜索 htmlparser
下载PDF
基于HtmlParser抽取动态异构Web信息的研究与实现 被引量:4
3
作者 桂林斌 《计算机与数字工程》 2009年第7期161-164,206,共5页
抽取动态异构Web信息以建立索引数据库供用户统一检索使用,是高校图书馆资源整合中的技术难点。通过对目标WEB站点表单提交方式和查询参数的研究和分析,使用Http模拟Post提交查询参数获得检索结果页面,基于开源项目HTMLParser包,以抽取C... 抽取动态异构Web信息以建立索引数据库供用户统一检索使用,是高校图书馆资源整合中的技术难点。通过对目标WEB站点表单提交方式和查询参数的研究和分析,使用Http模拟Post提交查询参数获得检索结果页面,基于开源项目HTMLParser包,以抽取CNKI文章检索结果入库为例,给出了算法及其实现的详细过程。 展开更多
关键词 动态异构 网页抽取 htmlparser
下载PDF
基于HTMLParser和HttpClient的网络爬虫原理与实现 被引量:8
4
作者 张亮 《电脑编程技巧与维护》 2011年第20期94-94,103,共2页
介绍了网络爬虫的技术原理,给出了使用HTMLParser、HttpClient和Java实现简单网络爬虫的程序框架,对同类研究有一定的参考作用。
关键词 网络爬虫 htmlparser HttpClinet
下载PDF
基于HTMLParser的Web信息抽取系统的设计与实现 被引量:8
5
作者 李彦刚 魏海平 侯兴华 《辽宁石油化工大学学报》 CAS 2006年第2期83-86,共4页
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTM... 互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。 展开更多
关键词 信息抽取 正则表达式 htmlparser JAVA
下载PDF
基于HTMLParser的BT种子网页信息抽取 被引量:4
6
作者 张丽娜 陈俊杰 赵丽欣 《电脑开发与应用》 2010年第3期59-61,共3页
通过采用相对路径方法结合节点内容特征进行信息定位,利用HTMLParser解析器的信息转化功能对定位的信息块进行预处理,总结出抽取规则,实现了BT种子网页信息抽取,并以此建立了一种针对BT种子信息的抽取模型。
关键词 htmlparser 信息抽取 BT种子信息
下载PDF
基于HTMLParser的Web文献信息提取 被引量:3
7
作者 龚真平 《软件导刊》 2011年第2期14-15,共2页
基于HTMLParser对网页进行解析,可抽取标签间的Link、image、meta和title等信息。使用HTMLParser来提取Web文献中的题名、关键字、摘要、作者、来源等信息,清洗后存入MySql数据库当中,以备后续数据挖掘使用。对此进行了论述。
关键词 htmlparser Web文献 信息提取
下载PDF
HTMLParser提取网页超链接研究 被引量:1
8
作者 郎凤举 《电脑编程技巧与维护》 2010年第2期74-75,共2页
每个网页中都存在许多超链接,很多网页的有用信息都存在于超链接中,如何有效地获取这些超链接成为Web挖掘的一个重要步骤。提出了利用HTMLParser开源工具实现Web页面解析,提取网页的超链接,从而获取有用信息,为下一步开发搜索引擎做准备。
关键词 htmlparser 页面解析 信息提取
下载PDF
基于Heritrix和HTMLParser的网页商品信息提取的研究
9
作者 刘文浩 谢韬 吴进 《计算机光盘软件与应用》 2012年第8期190-191,共2页
主要介绍Heritrix网络爬虫,分析了其系统结构。通过扩展Heritrix,使其能抓取太平洋电脑网站上的商品信息。在此基础上,利用ELFHash对效率抓取进行优化。最后,利用HTMLParser提取收集到的网页商品信息,为建立垂直搜索引擎提供信息源。
关键词 HERITRIX htmlparser 网络爬虫 信息提取 垂直搜索
下载PDF
基于HTMLParser视频信息抽取系统的设计与实现
10
作者 史诚 《科技传播》 2011年第22期207-208,共2页
目前视频网站成为人们上网时不可或缺的娱乐途径,但现在的视频网站对视频的分类以及描述参差不齐,其主要原因就是没有构建统一的视频信息知识库,而构建知识库的核心技术就是网络爬虫的设计。本文针对视频类网站进行了详细研究。通过深... 目前视频网站成为人们上网时不可或缺的娱乐途径,但现在的视频网站对视频的分类以及描述参差不齐,其主要原因就是没有构建统一的视频信息知识库,而构建知识库的核心技术就是网络爬虫的设计。本文针对视频类网站进行了详细研究。通过深入分析视频类网站页面的树形结构的构架,并基于HTMLParser的信息提取方法 ,从种子页面中提取出相关的视频信息用于视频信息知识库的构建。 展开更多
关键词 网络爬虫 视频爬取 htmlparser
下载PDF
信息管理系统动态表单技术的研究与实现 被引量:16
11
作者 张佳强 王士同 《计算机应用与软件》 CSCD 2010年第8期29-32,共4页
针对企业信息管理系统的固定表单技术不能满足企业因服务变化引起的需求变化问题,提出了基于SSH(Struts、Spring、Hibernate)架构,结合改进的Ewebeditor编辑器定义表单属性信息及结构样式信息并运用HtmlParser超文本分析技术提取相关信... 针对企业信息管理系统的固定表单技术不能满足企业因服务变化引起的需求变化问题,提出了基于SSH(Struts、Spring、Hibernate)架构,结合改进的Ewebeditor编辑器定义表单属性信息及结构样式信息并运用HtmlParser超文本分析技术提取相关信息来实现信息系统中表单动态定制的技术,同时阐述了自定义表单数据的动态呈现、动态传输和动态访问技术,并给出了该设计关键技术的细节和实现方法。 展开更多
关键词 动态表单 SSH 域模型 htmlparser E-webeditor
下载PDF
基于页面分类的Web信息抽取方法研究 被引量:5
12
作者 成卫青 于静 +1 位作者 杨晶 杨龙 《计算机技术与发展》 2013年第1期54-58,共5页
通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通... 通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在抽取页面类型固定和抽取结果不准确的问题,为了弥补以上两个不足,文中提出了一种基于页面分类的Web信息抽取方法,此方法能够完成对互联网上主流信息的提取。通过对页面进行分类和对页面主体的提取,分别克服传统方法抽取页面类型固定和抽取结果不够准确的问题。文中设计了一个完整的Web信息抽取模型,并给出了各功能模块的实现方法。该模型包含页面主体提取、页面分类和信息抽取等模块,并利用正则表达式自动生成抽取规则,提高了抽取方法的通用性和准确性。最后用实验证实了文中方法的有效性与正确性。 展开更多
关键词 WEB信息抽取 正则表达式 页面分类 htmlparser 结点树
下载PDF
面向结构的Web表格数据抽取系统 被引量:3
13
作者 徐飞 张素芹 姚红革 《西安工业大学学报》 CAS 2009年第6期574-578,共5页
针对Web数据挖掘预处理中,Web表格无结构化描述及缺乏清晰语义信息的问题,构建了面向结构的Web表格数据提取系统.利用HTMLParser库的解析原理,设计启发式规则对Web表格结构进行定位、识别、提取并剔除非数据型结构;以Xml规范化模型对提... 针对Web数据挖掘预处理中,Web表格无结构化描述及缺乏清晰语义信息的问题,构建了面向结构的Web表格数据提取系统.利用HTMLParser库的解析原理,设计启发式规则对Web表格结构进行定位、识别、提取并剔除非数据型结构;以Xml规范化模型对提取表格数据进行存储.最后抽取9个中文网站171个数据表格进行验证试验,结果表明对于结构化完整的表格具有较高的识别率并有一定的容错能力. 展开更多
关键词 htmlparser WEB表格 表格识别 数据提取 XML
下载PDF
企业专利采集与服务系统的设计与实现 被引量:2
14
作者 胡杰 何小菁 仝亮 《情报杂志》 CSSCI 北大核心 2012年第10期136-140,共5页
针对企业创新对专利检索与利用的需求设计了面向企业的专利采集与服务系统。系统采用Web挖掘技术从Internet上采集专利数据,构建面向企业、面向主题的专利数据库;同时为企业建立从内部专利申请到办理,从专利检索到统计分析,到竞争对手... 针对企业创新对专利检索与利用的需求设计了面向企业的专利采集与服务系统。系统采用Web挖掘技术从Internet上采集专利数据,构建面向企业、面向主题的专利数据库;同时为企业建立从内部专利申请到办理,从专利检索到统计分析,到竞争对手专利信息分析等全方位、一体化的管理与服务平台。工程应用效果表明该系统满足企业的需求,推动了企业科技创新发展。 展开更多
关键词 专利Web挖掘信息系统Ext JS htmlparser J2EE
下载PDF
全自动网页信息采集系统 被引量:5
15
作者 徐春凤 王艳春 翟宏宇 《长春理工大学学报(自然科学版)》 2015年第2期151-154,共4页
随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网... 随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网页,深入研究了信息采集技术。利用Heritrix的可扩展性,来实现用户的抓取。通过分析Heritrix的工作流程,模块划分以及源码设计,基于Heritrix扩展抽取面向商品信息的网页,配合Html Parser对网页内容进行解析,有效的提取商品关键信息后存入数据库以供检索。 展开更多
关键词 HERITRIX htmlparser 网络爬虫 信息提取
下载PDF
HtmIParser提取网页信息的设计与实现 被引量:6
16
作者 黄颖 黄治平 《江西理工大学学报》 CAS 2007年第6期26-28,35,共4页
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理,文中详细... 互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理,文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用。 展开更多
关键词 htmlparser 信息提取 网页解析
下载PDF
基于单元识别的网页信息抽取方法 被引量:1
17
作者 柳永念 钟诚 焦小焦 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2011年第5期787-791,共5页
建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法。分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率。
关键词 单元识别 信息抽取 父亲结构树 htmlparser 正则表达式
下载PDF
基于Lucene的文档管理系统的设计与实现 被引量:2
18
作者 李雪利 黄理灿 范晨熙 《工业控制计算机》 2012年第10期87-88,94,共3页
目前各种类型的文档被广泛地使用,但是如何快速地从众多的文档中查找到我们所需要的信息成为当前研究的热点。基于现有的开源搜索框架Lucene而设计并实现的一款文档管理系统,不仅可以实现对Word、Excel、PowerPoint等文档的检索,而且还... 目前各种类型的文档被广泛地使用,但是如何快速地从众多的文档中查找到我们所需要的信息成为当前研究的热点。基于现有的开源搜索框架Lucene而设计并实现的一款文档管理系统,不仅可以实现对Word、Excel、PowerPoint等文档的检索,而且还能够实现对PDF、HTML、RTF、TXT等文档进行检索。从而能够方便的查找各类文档,进而更好地实现对各类文档的管理。 展开更多
关键词 LUCENE POI htmlparser 文档管理 全文检索
下载PDF
基于Heritrix+Lucene的高校图书馆网站全文搜索引擎构建 被引量:1
19
作者 华京生 李萍 《情报探索》 2013年第9期101-105,共5页
调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索。以开源软件Heritrix、Lucene和Htmlparser等为基础,构建一个简单的具有基... 调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索。以开源软件Heritrix、Lucene和Htmlparser等为基础,构建一个简单的具有基本功能的高校图书馆搜索引擎,以期为后续的研究打下基础。 展开更多
关键词 搜索引擎 数字图书馆 HERITRIX LUCENE htmlparser
下载PDF
专用Web信息收集系统的设计和实现
20
作者 朱雪莲 《煤炭技术》 CAS 北大核心 2011年第8期190-191,共2页
Heritrix是由Java开发的开源Web网络爬虫,HTMLParser技术对抓取后网页内容进行高效率解析,对信息进行再一次整合,很好的解决了专业搜索引擎所需数据来源问题。文章探讨了基于Heritrix和HTMLParser构建Web信息收集系统的设计和实现。
关键词 HERITRIX htmlparser WEB
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部