期刊文献+
共找到545篇文章
< 1 2 28 >
每页显示 20 50 100
基于决策树算法的Word格式文件数据抽取方法
1
作者 庄自会 《中国新技术新产品》 2024年第14期49-51,共3页
由于Word格式文件数据抽取方法直接对数据自动抽取模型进行构建,没有对数据容量进行自适应处理,因此数据抽取效果较差。本文提出基于决策树算法的Word格式文件数据抽取方法,可对数据容量进行自适应处理,提升数据抽取的效率和准确性。并... 由于Word格式文件数据抽取方法直接对数据自动抽取模型进行构建,没有对数据容量进行自适应处理,因此数据抽取效果较差。本文提出基于决策树算法的Word格式文件数据抽取方法,可对数据容量进行自适应处理,提升数据抽取的效率和准确性。并基于决策树算法构建数据自动抽取模型,输出文件数据抽取策略,进行Word格式文件数据抽取。试验结果表明,该方法提高了抽取效率,降低了系统资源的占用率,从而降低了数据抽取开销。 展开更多
关键词 决策树算法 Word格式文件 数据抽取方法 自动化处理
下载PDF
数字化钻井ETL增量数据抽取与同步机制
2
作者 康芳玲 王建胜 《信息系统工程》 2024年第10期84-87,共4页
随着石油钻井行业数字化转型的深入推进,数据的实时性、准确性和完整性对提高钻井效率和决策质量至关重要。针对数字化钻井环境下数据抽取、转换和加载(ETL)过程中的增量数据抽取与同步问题,提出了一种基于时间戳和变更数据捕获(CDC)的... 随着石油钻井行业数字化转型的深入推进,数据的实时性、准确性和完整性对提高钻井效率和决策质量至关重要。针对数字化钻井环境下数据抽取、转换和加载(ETL)过程中的增量数据抽取与同步问题,提出了一种基于时间戳和变更数据捕获(CDC)的混合机制。该机制通过对源数据系统的日志分析和数据比对,实现了高效、准确的增量数据识别和抽取。同时,采用分布式消息队列和实时流处理技术,构建了一个低延迟、高吞吐量的数据同步管道。 展开更多
关键词 数字化钻井 ETL 增量数据抽取 数据同步 变更数据捕获
下载PDF
论智能化网络安全攻击检测中数据抽取和分析
3
作者 陈珍文 贺嘉 +1 位作者 武衢 谌艺然 《通讯世界》 2024年第7期69-71,共3页
如何在不影响异常检测效果的前提下通过数据抽取和分析网络安全攻击,为检测网络安全攻击提供可靠的数据支持,成为当前防范网络安全攻击的一个重要课题。基于此,围绕智能化网络安全攻击检测技术的发展背景,构建智能化网络安全攻击检测平... 如何在不影响异常检测效果的前提下通过数据抽取和分析网络安全攻击,为检测网络安全攻击提供可靠的数据支持,成为当前防范网络安全攻击的一个重要课题。基于此,围绕智能化网络安全攻击检测技术的发展背景,构建智能化网络安全攻击检测平台,分析该攻击检测平台中数据抽取和分析技术的实际应用,以期推进网络安全攻击检测的智能化、可视化进程。 展开更多
关键词 网络安全 攻击检测 数据抽取
下载PDF
融合注意力机制的人机交互信息半监督敏感数据抽取算法 被引量:1
4
作者 牟少霞 吕冰彩 《计算技术与自动化》 2023年第3期85-89,95,共6页
为提高敏感数据抽取效果,提出了融合注意力机制的人机交互信息半监督敏感数据抽取方法。融合类卷积以及人机交互注意力机制构建融合交互注意力机制双向长短词记忆(Bi-LSTM-CRF)模型,通过模型的类卷积交互注意力机制将敏感词转化为字符矩... 为提高敏感数据抽取效果,提出了融合注意力机制的人机交互信息半监督敏感数据抽取方法。融合类卷积以及人机交互注意力机制构建融合交互注意力机制双向长短词记忆(Bi-LSTM-CRF)模型,通过模型的类卷积交互注意力机制将敏感词转化为字符矩阵,采用Bi-LSTM对该矩阵进行编码获得敏感词字符级特点的分布式排列,通过Bi-LSTM对该分布式排列的二次编码获得敏感词上下文信息的隐藏状态,基于该隐藏状态通过类卷积注意力层与交互注意力层进行注意力加权,获得类卷积注意力矩阵与交互注意力矩阵,拼接两个矩阵得到双层注意力矩阵,利用交互注意力层门控循环单元升级双层注意力矩阵成新的注意力矩阵,经全连接降维获取敏感词对应的预测标签,实现人机交互信息半监督敏感数据抽取。实验结果说明:该方法可有效降低敏感数据抽取复杂度,具有较高的敏感数据抽取查全率。 展开更多
关键词 注意力机制 人机交互 半监督 敏感数据抽取 BiLSTM模型 CRF模型
下载PDF
组件式数据抽取工具的设计与实现 被引量:3
5
作者 陈维斌 喻小光 陈启泉 《华侨大学学报(自然科学版)》 CAS 2002年第4期421-426,共6页
结合数据抽取处理的多源性、数据预处理功能的集成、数据抽取处理描述信息的重用等特征 ,讨论数据抽取事务逻辑划分及组件包设计 .给出数据抽取包的定义、包的逻辑结构及可视化管理工具设计 .提出用元数据生成数据抽取包、用 DTS包作为... 结合数据抽取处理的多源性、数据预处理功能的集成、数据抽取处理描述信息的重用等特征 ,讨论数据抽取事务逻辑划分及组件包设计 .给出数据抽取包的定义、包的逻辑结构及可视化管理工具设计 .提出用元数据生成数据抽取包、用 DTS包作为数据抽取包的执行载体的方法 ,以提高数据传输性能和简化系统实现 . 展开更多
关键词 组件式 数据抽取工具 数据仓库 数据抽取 抽取 DTS包 COM组件 逻辑结构 组件包设计
下载PDF
Web数据抽取技术研究初探 被引量:3
6
作者 李春艳 徐保民 《电脑知识与技术》 2009年第12Z期9920-9922,共3页
该文给出了数据抽取过程中需要的基本定义,描述了数据抽取所基于的页面生成模型。同时给出了EXALG+这种数据抽取方法的基本流程,并给出了这种方法的抽取流程图。
关键词 数据抽取 EXALG+数据抽取方法 抽取流程图
下载PDF
基于结果模式的Deep Web数据抽取 被引量:15
7
作者 马安香 张斌 +2 位作者 高克宁 齐鹏 张引 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期280-288,共9页
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式... 高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础. 展开更多
关键词 DEEP WEB 数据集成 数据抽取 结果模式 语义标注 网页数据特征矩阵
下载PDF
SVM+BiHMM:基于统计方法的元数据抽取混合模型 被引量:27
8
作者 张铭 银平 +1 位作者 邓志鸿 杨冬青 《软件学报》 EI CSCD 北大核心 2008年第2期358-368,共11页
提出了一种SVM+BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,... 提出了一种SVM+BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称BiHMM)理论.二元HMM模型BiHMM在保持模型结构不变的前提下,通过区分首发概率和状态内部发射概率,修改了HMM发射概率计算模型.在SVM+BiHMM复合模型中,首先根据规则把论文粗分为论文头、正文以及引文部分,然后建立SVM模型把文本块划分为元数据子类,接着采用Sigmoid双弯曲函数把SVM分类结果用于拟合调整BiHMM模型的单词发射概率,最后用复合模型进行元数据抽取.SVM方法有效考虑了块间联系,BiHMM模型充分考虑了单词在状态内部的位置信息,二者的元数据抽取结果得到了很好的互补和修正,实验评测结果表明,SVM+BiHMM算法的抽取效果优于其他方法. 展开更多
关键词 数据抽取 基于规则的信息抽取 支持向量机 隐马尔科夫模型 二元 HMM模型
下载PDF
非结构化表格文档数据抽取与组织模型研究 被引量:12
9
作者 张元鸣 陈苗 +2 位作者 陆佳炜 徐俊 肖刚 《浙江工业大学学报》 CAS 北大核心 2016年第5期487-494,共8页
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括... 针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析. 展开更多
关键词 非结构化表格文档 数据抽取 结构化数据模型 数据分析
下载PDF
Web数据抽取技术研究进展 被引量:13
10
作者 张成洪 古晓洪 白延红 《计算机科学》 CSCD 北大核心 2004年第2期129-131,151,共4页
由于Web上存在着大量有用而复杂的信息,近年来学术界和企业界开发了许多从Web中抽取数据的方法和工具。本文总结了Web数据抽取技术的研究进展和从Web中抽取数据的主要原理、过程、方法和抽取规则,并讨论了未来的研究方向。
关键词 Web 网页 数据抽取 分布式数据库系统 数据模型 数据管理
下载PDF
一种大数据时代海量数据抽取的开发模型研究 被引量:10
11
作者 罗恩韬 胡志刚 林华 《计算机应用研究》 CSCD 北大核心 2013年第11期3269-3271,3275,共4页
随着大数据增长速度提高、数据体量增大,数据的冗余也将会越来越大,传统的数据软件分析模型已经不能满足需要海量信息的处理和分析的需要,如何从大数据里面抽取有效的信息,对数据进行有效的分析和决策,建立新的数据模型,对数据进行分析... 随着大数据增长速度提高、数据体量增大,数据的冗余也将会越来越大,传统的数据软件分析模型已经不能满足需要海量信息的处理和分析的需要,如何从大数据里面抽取有效的信息,对数据进行有效的分析和决策,建立新的数据模型,对数据进行分析和处理就显得尤为重要。采取了一种更适合大数据时代的数据抽取模型,并给出了数据抽取的判定方法。此方法具有复杂度低,易于实现,具有良好的估计性能。 展开更多
关键词 数据 数据抽取 SAT模型
下载PDF
数据抽取及语义分析在Web数据挖掘中的应用 被引量:6
12
作者 袁占亭 张秋余 李威 《计算机工程与设计》 CSCD 北大核心 2005年第6期1425-1427,1437,共4页
把复杂的网络站点作为多个业务数据源,采用数据仓库及数据挖掘技术,从中抽取并净化数据到挖掘数据库,从而将数据抽取及语义分析应用于Web数据挖掘中。在此基础上又提出了运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的... 把复杂的网络站点作为多个业务数据源,采用数据仓库及数据挖掘技术,从中抽取并净化数据到挖掘数据库,从而将数据抽取及语义分析应用于Web数据挖掘中。在此基础上又提出了运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,使数据提取更加准确。 展开更多
关键词 WEB 数据挖掘 数据抽取 语义分析 数据结构
下载PDF
基于树自动机的网页数据抽取 被引量:6
13
作者 王茹 宋瀚涛 陆玉昌 《北京理工大学学报》 EI CAS CSCD 北大核心 2004年第9期790-793,共4页
为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用... 为了自动将数据从HTML网页中抽取出来,采取树自动机推断方式进行数据抽取.核心思想是将样本网页转化为二叉树并构建出能够接受这些网页二叉树的树自动机,利用所得到的树自动机对待抽取网页的接受和拒绝状态进行数据抽取.该方法充分利用了HTML文档内在的树状结构,设计了简单方便的样本网页标注形式.实验表明,该方法的抽取性能在查全率和F值方面优于其它的一些数据抽取方法. 展开更多
关键词 数据抽取 树自动机 WEB网页 HTML
下载PDF
网际网上半结构化数据抽取与知识发现方法及其实现 被引量:7
14
作者 陈恩红 范焱 +1 位作者 王行甫 蔡庆生 《计算机科学》 CSCD 北大核心 1999年第10期49-52,共4页
1.引言在信息化程度日益提高的今天,半结构化信息已遍及社会的各个领域。例如,网际网(World WideWeb,又称WWW)已成为一个巨大的信息源,然而WWW上的信息并不能以一种通用的方式进行查询及操纵,大量的信息是以静态的HTML文本形式存储并只... 1.引言在信息化程度日益提高的今天,半结构化信息已遍及社会的各个领域。例如,网际网(World WideWeb,又称WWW)已成为一个巨大的信息源,然而WWW上的信息并不能以一种通用的方式进行查询及操纵,大量的信息是以静态的HTML文本形式存储并只能通过浏览器来浏览,因此如何有效利用这类信息显得尤为重要。 展开更多
关键词 网际网 数据抽取 知识发现 半结构化数据
下载PDF
基于OLE DB的数据抽取、转换和装入工具的设计与实现 被引量:16
15
作者 王元珍 李海波 《小型微型计算机系统》 CSCD 北大核心 2002年第4期453-455,共3页
本文讨论了如何利用 OL E DB接口设计与实现数据 ETL工具 .按照面向对象的开发方法 ,通过 COM技术实现 OL E DB接口和 DTS接口 ,能够迅速地实现一个具有良好可扩展性的数据 ETL
关键词 OLEDB ETL工具 数据迁移服务 数据仓库系统 数据 设计 数据抽取
下载PDF
基于网页布局相似度的Web论坛数据抽取 被引量:9
16
作者 王允 李弼程 林琛 《中文信息学报》 CSCD 北大核心 2010年第2期68-75,共8页
Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低... Web论坛中蕴含着丰富的信息资源,充分利用这些信息资源依赖于论坛数据抽取技术。该文解决了从Web论坛抽取什么数据和如何抽取的问题,提出了一种基于网页布局相似度的Web论坛数据抽取方法,有效弥补了目前方法的自动化程度低,或准确率低的不足。该方法充分利用Web论坛网页布局结构上的特点,采用分级处理的方式,先识别出主题信息块、再利用待抽取数据的统计规律在主题信息块中完成抽取,整个过程不需要任何人工干预。实验结果表明,新方法对不同的BBS站点有很好的通用性,且具有较高的准确率和召回率。 展开更多
关键词 计算机应用 中文信息处理 WEB论坛 数据抽取 相似度
下载PDF
基于关键属性比对的增量数据抽取方法 被引量:4
17
作者 刘胜 杨岳湘 +1 位作者 邓劲生 李阳 《计算机工程与应用》 CSCD 2012年第4期115-117,共3页
概述了ETL目前常用的增量数据抽取方法,在全表比对方法基础上,提出了基于关键属性比对的增量数据提取方法,描述了关键属性提取算法,并建立其模型,用实验验证了基于关键属性比对的方法优于全表比对方法和全表删除插入方法。
关键词 关键属性 增量数据抽取 全表比对 提取转换加载(ETL)
下载PDF
基于知识的多数据源DSS的数据抽取技术研究 被引量:4
18
作者 琚春华 凌云 王光明 《小型微型计算机系统》 CSCD 北大核心 2001年第9期1096-1098,共3页
目前 DSS的研究主要侧重于 DSS的结构、解决问题的方法和模型库系统等方面 ,对多数据源情况下的 DSS数据系统研究还不多〔1 ,3〕 .本文提出一种基于知识的多数据源 DSS的数据抽取技术 ,通过对各数据源属性的描述和数据转换检测规则的表... 目前 DSS的研究主要侧重于 DSS的结构、解决问题的方法和模型库系统等方面 ,对多数据源情况下的 DSS数据系统研究还不多〔1 ,3〕 .本文提出一种基于知识的多数据源 DSS的数据抽取技术 ,通过对各数据源属性的描述和数据转换检测规则的表示 。 展开更多
关键词 数据 DSS 数据抽取 知识 决策支持系统
下载PDF
Java XML与面向Web的智能数据抽取 被引量:8
19
作者 文艺 刘循 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2004年第2期315-318,共4页
采用标准Web技术———HTML,XML和Java,开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法.该方法标识数据源并把它映射成XHTML,根据一定的相关关系查找数据内的引用点并进行智能数据抽取,将数据映射成XML.这种数据抽取方法比较简... 采用标准Web技术———HTML,XML和Java,开发一种基于Web用Java把Web数据转换为XML的数据挖掘方法.该方法标识数据源并把它映射成XHTML,根据一定的相关关系查找数据内的引用点并进行智能数据抽取,将数据映射成XML.这种数据抽取方法比较简单,通过选择可靠的数据源以及在这些数据源中选取与内容相关但与格式无关的锚点,可以较为方便地建立一个强壮的数据抽取系统. 展开更多
关键词 XML XEITML XSL 数据抽取
下载PDF
基于子树匹配的交互式Web数据抽取方法 被引量:8
20
作者 张慧颖 曲著伟 《计算机工程》 CAS CSCD 北大核心 2006年第9期78-80,共3页
查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很... 查询相关的Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很高的数据抽取查全率和准确率。 展开更多
关键词 WEB数据抽取 Top-down树匹配 DOM
下载PDF
上一页 1 2 28 下一页 到第
使用帮助 返回顶部