期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
支持混合事务和分析处理的数据库管理系统综述
1
作者 王嵩立 荆一楠 +2 位作者 何震瀛 张凯 王晓阳 《软件学报》 EI CSCD 北大核心 2024年第1期405-429,共25页
数据库管理系统根据应用场景分为事务型(OLTP)系统和分析型(OLAP)系统.随着实时数据分析需求增长,OLTP任务和OLAP任务混合的场景越来越普遍,业界开始重视支持混合事务和分析处理(HTAP)的数据库管理系统.这种HTAP数据库系统除了需要满足... 数据库管理系统根据应用场景分为事务型(OLTP)系统和分析型(OLAP)系统.随着实时数据分析需求增长,OLTP任务和OLAP任务混合的场景越来越普遍,业界开始重视支持混合事务和分析处理(HTAP)的数据库管理系统.这种HTAP数据库系统除了需要满足高性能的事务处理外,还需要满足实时分析对数据新鲜度的要求.因此,对数据库系统的设计与实现提出了新的挑战.近年来,在工业界和学术界涌现了一批架构多样、技术各异的原型和产品.综述HTAP数据库的背景和发展现状,并且从存储和计算的角度对现阶段的HTAP数据库进行分类.在此基础上,按照从下往上的顺序分别总结HTAP系统在存储和计算方面采用的关键技术.在此框架下介绍各类系统的设计思想、优劣势以及适用的场景.此外,结合HTAP数据库的评测基准和指标,分析各类HTAP数据库的设计与其呈现出的性能与数据新鲜度的关联.最后,结合云计算、人工智能和新硬件技术为HTAP数据库的未来研究和发展提供思路. 展开更多
关键词 数据库系统 混合事务和分析处理 查询处理 数据库存储 存储模型 事务处理
下载PDF
组合查询条件下的属性社区搜索
2
作者 王玲 刘晓清 +1 位作者 何震瀛 荆一楠 《计算机应用与软件》 北大核心 2024年第4期38-45,共8页
传统的属性社区搜索问题仅研究查询属性在结果社区中存在与否。为应对复杂查询场景的需求,研究了组合查询条件下的属性社区搜索问题:给定多属性集合,各属性至少需满足的数量以及社区大小的上限约束,搜索所有节点的最小度数最大化的社区... 传统的属性社区搜索问题仅研究查询属性在结果社区中存在与否。为应对复杂查询场景的需求,研究了组合查询条件下的属性社区搜索问题:给定多属性集合,各属性至少需满足的数量以及社区大小的上限约束,搜索所有节点的最小度数最大化的社区。提出通用算法解决框架,并以此为基础,提出两个优化方法,分别是:基于属性特征的搜索空间优化,以减小搜索空间;基于结构特征的搜索顺序优化,以通过搜索顺序的调整进一步提升算法效率。实验结果表明,算法可找到符合组合查询条件的属性社区。在大规模数据集上,经过两个优化后的算法效率比原算法提升2~3倍,同时内存开销减少约50%。 展开更多
关键词 社区搜索 组合查询条件 属性社区
下载PDF
支持均匀缩放的不等长时间子序列查询方法
3
作者 熊浩然 何震瀛 《计算机工程》 CSCD 北大核心 2024年第1期60-67,共8页
作为时序数据分析中的基础技术之一,时间序列的子序列查询旨在寻找与目标序列相似的子序列。现有的子序列查询方法大多仅支持查询与目标序列长度相同的子序列,因而均匀缩放技术常被用于解决子序列查询中的不等长问题。但现有支持均匀缩... 作为时序数据分析中的基础技术之一,时间序列的子序列查询旨在寻找与目标序列相似的子序列。现有的子序列查询方法大多仅支持查询与目标序列长度相同的子序列,因而均匀缩放技术常被用于解决子序列查询中的不等长问题。但现有支持均匀缩放的子序列查询技术大多未考虑子序列的Z-标准化,且对查询效率仍有改善的空间。针对该问题,提出一种基于索引技术且支持均匀缩放的子序列查询方法。结合现有索引方法 ULISSE提供的树状数据结构,设计可保证非漏报的下界距离,为索引结构的剪枝提供理论保证,并利用索引中存储的元数据,提出精确K-近邻查询算法。所提方法适用于非归一化和归一化两种场景。实验结果表明,较UCR-US和ULISSE基线方法,该基于索引的不等长子序列查询方法在CAP、GAP两个真实数据集以及随机游走人工合成数据集上均实现了查询效率的显著提升,针对在非归一化和归一化两种场景下的不等长子序列查询,该方法的平均效率提升分别为2.33和2.51倍。 展开更多
关键词 时间序列 子序列查询 均匀缩放 索引 下界距离 K-近邻
下载PDF
SQL-to-text模型的组合泛化能力评估方法
4
作者 陈琳 范元凯 +3 位作者 何震瀛 刘晓清 杨阳 汤路民 《计算机工程》 CAS CSCD 北大核心 2024年第3期326-335,共10页
数据库的结构化查询语言(SQL)到自然语言的翻译(SQL-to-text)能提高关系数据库的易用性。近年来该领域主要使用机器学习的方法进行研究并已取得一定进展,然而现有翻译模型的能力仍不足以投入实际应用。由于组合泛化能力是SQL-to-text模... 数据库的结构化查询语言(SQL)到自然语言的翻译(SQL-to-text)能提高关系数据库的易用性。近年来该领域主要使用机器学习的方法进行研究并已取得一定进展,然而现有翻译模型的能力仍不足以投入实际应用。由于组合泛化能力是SQL-to-text模型在实际应用中提升翻译效果的必要能力,且目前缺少对此类模型组合泛化能力的研究,因此提出一种SQL-to-text模型的组合泛化能力评估方法。基于现有的SQL-to-text数据集生成大量SQL和对应的自然语言翻译(SQL-自然语言对),并按SQL-自然语言对所含SQL子句的个数将其划分为训练数据与测试数据,使测试数据中的SQL子句皆以不同的组合方式在训练数据中出现,从而得到可评估模型组合泛化能力的新数据集。评估结果表明,该方法对查询知识的使用程度较高,划分数据的方式更加合理,所得数据集符合评估组合泛化能力的需求且贴近模型的实际应用场景,受到原始数据集的限制程度更低,并证实现有模型的组合泛化能力仍需提升,其中针对SQL-to-text任务设计的关系感知图转换器模型组合泛化能力最弱,表明原有的SQL-to-text数据集对组合泛化能力的考察存在欠缺。 展开更多
关键词 结构化查询语言 组合泛化 机器翻译 数据库 长短期记忆模型
下载PDF
人身保险知识图谱的构建与应用 被引量:1
5
作者 陈浩远 何震瀛 +2 位作者 刘晓清 杨阳 汤路民 《计算机系统应用》 2023年第1期75-86,共12页
辅助投保人了解保险产品的条款是保险应用关注的热点问题之一,借助知识图谱技术辅助人身保险业务开展是一种可行的方法.本文首先从多源数据中提取并构建人身保险知识图谱LIKG.具体而言,构建BERT-IDCNN-BiLSTM-CRF模型提取非结构化文本... 辅助投保人了解保险产品的条款是保险应用关注的热点问题之一,借助知识图谱技术辅助人身保险业务开展是一种可行的方法.本文首先从多源数据中提取并构建人身保险知识图谱LIKG.具体而言,构建BERT-IDCNN-BiLSTM-CRF模型提取非结构化文本数据的实体,通过多种短文本相似度算法以及集成排序算法完成实体对齐;设计并使用Bootstrapping和分类预测两阶段抽取方法对保险产品进行属性填充.然后,根据构建的LIKG,设计开发原型系统,该系统使用实体抽取和属性抽取算法提供知识获取功能、设计CF-IIF指标提供属性推荐功能以及实现可视化界面帮助用户快速掌握人身保险产品的信息,展示LIKG的应用价值. 展开更多
关键词 人身保险 知识图谱 实体抽取 属性抽取 智能推荐
下载PDF
一种XML数据库的数据模型 被引量:11
6
作者 何震瀛 李建中 王朝坤 《软件学报》 EI CSCD 北大核心 2006年第4期759-769,共11页
数据模型是XML数据管理领域研究的核心问题之一.现有的数据模型在表达XML数据库复杂的数据结构和操作方面仍有不足.以映射为基础,提出了一种新的数据模型.该数据模型给出了XML数据库复杂的数据结构和语义的精确定义,并提供了数据结构上... 数据模型是XML数据管理领域研究的核心问题之一.现有的数据模型在表达XML数据库复杂的数据结构和操作方面仍有不足.以映射为基础,提出了一种新的数据模型.该数据模型给出了XML数据库复杂的数据结构和语义的精确定义,并提供了数据结构上操作代数的定义,包括路径表达式操作和数据维护操作.该数据模型已应用于一个基于XML的信息集成系统中.事实表明,它能够有效地支持XML数据管理的应用. 展开更多
关键词 XML数据库 数据模型 数据结构 代数 路径表达式
下载PDF
Web数据仓库的异步迭代查询处理方法 被引量:3
7
作者 何震瀛 李建中 高宏 《软件学报》 EI CSCD 北大核心 2002年第2期214-218,共5页
数据仓库信息量的飞速膨胀对数据仓库提出了巨大挑战.如何提高Web环境下数据仓库的查询效率成为数据仓库研究领域重要的研究问题.对Web数据仓库的体系结构和查询方法进行了研究和探讨.在分析几种Web数据仓库实现方法的基础上,提出了一种... 数据仓库信息量的飞速膨胀对数据仓库提出了巨大挑战.如何提高Web环境下数据仓库的查询效率成为数据仓库研究领域重要的研究问题.对Web数据仓库的体系结构和查询方法进行了研究和探讨.在分析几种Web数据仓库实现方法的基础上,提出了一种Web数据仓库的层次体系结构,并在此基础上提出了Web数据仓库的异步迭代查询方法.该方法充分利用了流水线并行技术,在Web数据仓库的查询处理过程中不同层次的结点以流水线方式运行,并行完成查询的处理,提高了查询效率.理论分析表明,该方法可以有效地提高Web数据仓库的查询效率. 展开更多
关键词 WEB 数据仓库 数据 异步迭代查询处理 数据库 INTERNET
下载PDF
功能完全的XML数据查询语言X-SQL 被引量:1
8
作者 何震瀛 李建中 +1 位作者 商超 王宏志 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2006年第5期678-681,共4页
针对已有XML查询语言的不足,提出一种新的XML数据查询语言X-SQL.X-SQL具有类似于SQL语言的Select-From-Path-W here结构、具有路径表达式查询能力和同时从多个数据源选取数据的能力,支持数据更新操作和查询结果的语义描述.
关键词 XML XML数据查询语言 X-SQL
下载PDF
关系数据库上基于元组组合的关键字查询 被引量:9
9
作者 陶岳 何震瀛 张家琪 《计算机研究与发展》 EI CSCD 北大核心 2011年第10期1890-1898,共9页
在传统的关系数据库上进行关键字查询已经成为近来数据库领域的研究热点,现有的工作都是以单个元组作为结果单元来返回.为了满足用户对于返回多元组的要求,提出了基于元组组合的关键字查询的概念,并通过返回元组组合来响应查询.通过对... 在传统的关系数据库上进行关键字查询已经成为近来数据库领域的研究热点,现有的工作都是以单个元组作为结果单元来返回.为了满足用户对于返回多元组的要求,提出了基于元组组合的关键字查询的概念,并通过返回元组组合来响应查询.通过对问题的分析得到了一系列启发式剪枝策略,设计了一个综合的优化算法.通过一系列真实数据集和人工数据集上的实验,验证了优化算法在绝大部分情况下比最初的算法在性能上有了显著的提高. 展开更多
关键词 关键字查询 元组组合 组合查询 候选集 关系数据库
下载PDF
基于扩展编码的在线XML文档加载机制 被引量:2
10
作者 张硕 李建中 +1 位作者 王宏志 何震瀛 《计算机研究与发展》 EI CSCD 北大核心 2004年第10期1829-1835,共7页
Webservices应用中存在大量在线XML文档处理的需求 ,利用现行的XML数据处理方法来处理上述在线文档是一项可行方案 ,在线文档的加载问题应运而生 ;目前对XML数据的存储和查询都是基于对XML文档树的某种编码方法 ,使用扩展编码方法以提... Webservices应用中存在大量在线XML文档处理的需求 ,利用现行的XML数据处理方法来处理上述在线文档是一项可行方案 ,在线文档的加载问题应运而生 ;目前对XML数据的存储和查询都是基于对XML文档树的某种编码方法 ,使用扩展编码方法以提高文档更新性能 ;如何基于扩展编码方法完成对在线文档加载的研究目前还比较少 提出一种新的扩展编码方法 ,在此编码的基础上 ,提出一种适合在线XML文档的加载方法 ,通过统计同模式的XML文档特征和更新特征 ,一遍解析文档完成扩展编码和加载 ;实验结果表明 。 展开更多
关键词 XML 扩展编码 在线XML 加载
下载PDF
参数化混合口令猜测方法 被引量:1
11
作者 韩伟力 张俊杰 +4 位作者 徐铭 王传旺 张浩东 何震瀛 陈虎 《计算机研究与发展》 EI CSCD 北大核心 2022年第12期2708-2722,共15页
基于文本口令的认证方法仍是当前用户身份认证的主流方式.为更好地研究口令安全性,研究人员提出了多种数据驱动的口令猜测方法,如概率上下文无关文法(probabilistic context-free grammars,PCFG)和马尔可夫(Markov)方法等.这些方法在猜... 基于文本口令的认证方法仍是当前用户身份认证的主流方式.为更好地研究口令安全性,研究人员提出了多种数据驱动的口令猜测方法,如概率上下文无关文法(probabilistic context-free grammars,PCFG)和马尔可夫(Markov)方法等.这些方法在猜测口令时有其独特的猜测优势,即能够以更小的猜测数猜中特定类型的口令.为充分利用这些优势以实现更优的猜测效率,提出了一个通用的参数化混合猜测框架.该框架由模型剪枝方法和理论证明最优的猜测数分配策略构成,能够混合不同数据驱动方法的猜测优势以生成更高效的猜测集.为了验证框架的通用性和最优性,通过分析并混合现有数据驱动猜测方法的不同优势,基于该框架设计了多个混合多元模型的参数化混合猜测方法(统称为hyPassGu)用于猜测实践.并且,还利用从真实网站泄露的4个大规模口令数据集(总共超过1.5亿条口令)对这些混合猜测方法进行了评估实验.实验结果表明,由不同方法组合构建的hyPassGu均表现出超越单一方法的猜测效率,且在10^(10)猜测数下超越了单一方法最优效率的1.52%~35.49%.此外,不同猜测数下的对比实验结果表明,提出的最优分配策略的猜测表现稳定,优于平均分配策略和随机分配策略,并在分布离散程度最大的口令数据集上有16.87%的相对提升,同时更多元的混合方法整体上也表现出更好的猜测效率. 展开更多
关键词 口令安全 数据驱动猜测 概率上下文无关文法 马尔可夫模型 混合模型
下载PDF
HIT-DML的设计与实现 被引量:1
12
作者 王朝坤 李建中 +1 位作者 石胜飞 何震瀛 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2006年第3期327-330,共4页
设计并实现了H IT-DML数字音乐图书馆.H IT-DML采用一种新的框架结构,以数据库系统为核心,一方面将音乐数据结构化存储在数据库中,另一方面在数据库系统内部实现了音频计算,从而将数据库技术和多媒体技术有机结合起来.H IT-DML还使用了... 设计并实现了H IT-DML数字音乐图书馆.H IT-DML采用一种新的框架结构,以数据库系统为核心,一方面将音乐数据结构化存储在数据库中,另一方面在数据库系统内部实现了音频计算,从而将数据库技术和多媒体技术有机结合起来.H IT-DML还使用了一种新的特征匹配算法以及n-gram倒排索引结构,能够基于内容检索音乐信息,并且可以针对不同乐器进行查询. 展开更多
关键词 数字音乐图书馆 音乐的特征提取 音乐的特征匹配 基于内容的音乐信息检索
下载PDF
基于DTD节点自动机的XML模式验证方法 被引量:1
13
作者 王春宇 李建中 何震瀛 《计算机工程与应用》 CSCD 北大核心 2004年第32期14-17,共4页
XML已经成为Web环境中数据表示和交换的标准。XML的模式验证在XML的使用中地位重要。DTD作为模式描述的一种方法,应用广泛,但使用DTD描述的模式不能正常表示同构的XML数据。文章扩展了DTD并提出了一种基于自动机的模式验证方法,将扩展的... XML已经成为Web环境中数据表示和交换的标准。XML的模式验证在XML的使用中地位重要。DTD作为模式描述的一种方法,应用广泛,但使用DTD描述的模式不能正常表示同构的XML数据。文章扩展了DTD并提出了一种基于自动机的模式验证方法,将扩展的DTD中每个元素转换为一个自动机,将XML文档编码为字符串,并将字符串作为自动机的输入进行验证,可以有效地验证同构的XML。 展开更多
关键词 XML 验证 自动机 同构 DTD
下载PDF
面向大数据分析的智能交互向导系统 被引量:6
14
作者 余乐章 夏天宇 +2 位作者 荆一楠 何震瀛 王晓阳 《计算机科学》 CSCD 北大核心 2021年第9期110-117,共8页
传统的大数据工具一般为专业数据分析人员打造,具有难以上手、操作交互性差以及不够智能化等特点。而智能交互向导系统是针对大数据交互式分析系统目前存在的问题而研制的一套大数据分析辅助工具。系统既研发了用户意图理解、数据抽样... 传统的大数据工具一般为专业数据分析人员打造,具有难以上手、操作交互性差以及不够智能化等特点。而智能交互向导系统是针对大数据交互式分析系统目前存在的问题而研制的一套大数据分析辅助工具。系统既研发了用户意图理解、数据抽样及列推荐、可视化推荐、分析方法推荐等核心关键技术,也拥有良好的图形化界面与人性化的智能交互体验。在满足用户多种交互式分析需求的同时,还具有极高的响应速度。不仅可以随时回溯到分析流程任意一步重新选择方法的执行流程,还可以通过接口与各种分析应用快速集成以部署应用于不同场景。经过实验测试,系统的平均交互时间均在3 s以内,且与传统分析方法相比系统交互的执行时效加快了3倍左右。通过用户用例测试,系统的满意度相比传统工具更加优秀。智能交互向导系统通过在易用性、时效性、可交互性和智能性等方面的探索,让不同基础的用户群体都可以使用此系统完成所需的大数据分析目标。 展开更多
关键词 大数据系统 智能交互 数据分析 方法推荐 用户意图
下载PDF
GCPR:一种在MapReduce平台上基于图划分的PageRank加速方法 被引量:2
15
作者 廖松博 陶岳 +1 位作者 何震瀛 汪卫 《小型微型计算机系统》 CSCD 北大核心 2012年第6期1195-1201,共7页
随着应用的扩展,大规模图数据不断涌现,如何对拥有大量结点的图进行分析成为研究者关注的焦点问题之一.结点的海量性与分析的复杂性使得图分析任务需要借助MapReduce平台多机并行完成.在该平台上,现有的PageRank算法每轮迭代都须扫描、... 随着应用的扩展,大规模图数据不断涌现,如何对拥有大量结点的图进行分析成为研究者关注的焦点问题之一.结点的海量性与分析的复杂性使得图分析任务需要借助MapReduce平台多机并行完成.在该平台上,现有的PageRank算法每轮迭代都须扫描、传输所有网页的完整状态,I/O和网络传输的开销严重影响了计算效率.为此,本文提出一种在MapReduce平台上基于图划分的PageRank加速方法:GCPR(Graph-clustering PageRank).GCPR利用图划分、数据两层压缩技术在MapReduce平台上进行PageRank迭代计算,不仅减少了Map到Reduce中间阶段I/O和网络传输的开销(MapReduce运算的主要瓶颈之一),而且平衡了计算资源.实验证明GCPR能极大提升MapReduce平台上的PageRank计算效率. 展开更多
关键词 PAGERANK MAPREDUCE 压缩 图划分
下载PDF
一种分布式系统上的元数据管理系统 被引量:2
16
作者 魏光辉 李杰斌 +2 位作者 王程玉 何震瀛 汪卫 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期416-420,共5页
元数据是描述数据及资源属性的数据.集中式的元数据管理会存在系统性能瓶颈、单点失效、数据容错差和难以扩展等缺点.而随着云计算的深入研究和广泛应用,涌现出很多高可用的分布式平台.HMS是一种架构在HBase?Hadoop平台上的元数据管理系... 元数据是描述数据及资源属性的数据.集中式的元数据管理会存在系统性能瓶颈、单点失效、数据容错差和难以扩展等缺点.而随着云计算的深入研究和广泛应用,涌现出很多高可用的分布式平台.HMS是一种架构在HBase?Hadoop平台上的元数据管理系统,旨在分布式系统上提供一种元数据管理服务,并保证有效性和高可用性.本系统提供元数据管理所需要的CRUD操作的支持,并且提供实体查询的扩展支持. 展开更多
关键词 XML 小枝查询 分布式系统
下载PDF
热点词汇的最长时间区间查询算法 被引量:2
17
作者 路畅 何震瀛 +1 位作者 荆一楠 王晓阳 《计算机应用与软件》 北大核心 2019年第8期249-254,305,共7页
热词查询是指在一个特定的时间范围内,从文本数据中搜索热点词汇。查询一组词汇成为热词的最长时间范围是话题检测与追踪的一个重要任务。现有的热词提取算法具有较高的时间复杂度,未考虑不同偏好的用户的查询需求,难以用于热词的在线... 热词查询是指在一个特定的时间范围内,从文本数据中搜索热点词汇。查询一组词汇成为热词的最长时间范围是话题检测与追踪的一个重要任务。现有的热词提取算法具有较高的时间复杂度,未考虑不同偏好的用户的查询需求,难以用于热词的在线提取以及最长时间范围的在线查询。为此提出一种在线查询算法,在类别和时间的二维区间上提取热词并查询用户指定词汇成为热词的最长时间范围。该算法基于Prefix Cube技术,对传统的TF^*PDF算法加以改进,在空间复杂度不变的情况下,降低TF^*PDF算法的时间复杂度。实验表明,与传统的TF^*PDF算法相比,该算法在路透社、纽约时报和BBC三个语料库上提取热词并查询最长时间区间的运行时间减少了81%,验证了该算法的高效性。 展开更多
关键词 TF^*PDF TOP-K 热点词汇 PREFIX CUBE 在线查询
下载PDF
基于分布式流处理的自适应数据分发策略 被引量:2
18
作者 闾程豪 荆一楠 +1 位作者 何震瀛 王晓阳 《计算机应用与软件》 北大核心 2018年第8期24-30,共7页
现有的分布式流数据分发方法通常只针对某一类数据分布的特征进行优化,以降低处理的延迟时间。现实情况中,数据分布的特征往往会随着时间发生变化,导致针对特定数据分布特征进行优化的分发方法无法总是获得最低的处理延迟时间。解决上... 现有的分布式流数据分发方法通常只针对某一类数据分布的特征进行优化,以降低处理的延迟时间。现实情况中,数据分布的特征往往会随着时间发生变化,导致针对特定数据分布特征进行优化的分发方法无法总是获得最低的处理延迟时间。解决上述问题可以使用一种自适应数据分发策略APS(Adaptive Partition Strategy)。在mini-batch分布式流处理模型中,APS策略选取一系列当下被广泛使用的数据分发方法作为候选,在每个minibatch上对不同候选方法的最大负载和键值分离程度进行整体评估,进而根据评估结果进行分发方法的调整。实验结果表明,在处理维基项目的真实数据集时,该策略与现有分发方法相比,最多能将处理延迟时间降低26.7%。 展开更多
关键词 分布式数据流处理 流数据分发 负载均衡 键值分离 自适应策略
下载PDF
XML数据上支持查询扩展的关键词检索系统 被引量:1
19
作者 胡昊 王君伟 +2 位作者 常橙 何震瀛 汪卫 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期421-425,共5页
XML数据上的关键词检索已经成为研究热点,为提高检索效果,查询扩展是常用的方法.提出一个XML数据上支持查询扩展的关键词检索系统,旨在从系统层面更好地支持查询扩展,从而将现有查询扩展技术与关键词检索技术结合起来.本系统主要分为索... XML数据上的关键词检索已经成为研究热点,为提高检索效果,查询扩展是常用的方法.提出一个XML数据上支持查询扩展的关键词检索系统,旨在从系统层面更好地支持查询扩展,从而将现有查询扩展技术与关键词检索技术结合起来.本系统主要分为索引构建、检索引擎和数据访问模块.在此基础上实现了XML数据上ELCA条件下的查询扩展检索算法,以支持扩展查询.详细介绍了系统中各部分的实现方法,展示了关键技术和实现细节.该系统为进一步的理论研究和算法应用奠定了基础. 展开更多
关键词 检索 查询扩展 ELCA XML数据库
下载PDF
一种基于链接聚类的查询扩展算法 被引量:2
20
作者 李珀瀚 何震瀛 向河林 《计算机研究与发展》 EI CSCD 北大核心 2011年第S3期197-204,共8页
潜在语义分析(LSA)是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从其中挖掘出词语之间的潜在联系.LSA有效地解决了一义多词的问题,但是,由于LSA在大矩阵的计算效率和存储上的不足,这限制了LSA在大... 潜在语义分析(LSA)是一种用于自动实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从其中挖掘出词语之间的潜在联系.LSA有效地解决了一义多词的问题,但是,由于LSA在大矩阵的计算效率和存储上的不足,这限制了LSA在大规模数据集上的应用.另一方面,在关系数据库中,数据对象通过多种类型的链接连接到一起.这些链接中蕴藏了丰富的语义信息.数据对象之间的相似性也可以通过这些链接体现出来.针对这个特点,提出了一种基于链接聚类的查询算法:利用数据对象之间的链接对数据对象进行聚类,用聚类代替文档来进行LSA处理,有效地减少处理文档的个数;在检索的过程中,寻找与关键字序列相似度最接近的簇,然后将簇内的文档返回给用户.实验结果表明,所提出的方法能够充分利用数据对象之间的链接,聚类效果明显;利用聚类后进行LSA处理,能够成倍地提高空间和时间开销,对精确度有提高作用. 展开更多
关键词 潜在语义分析 基于链接的聚类算法 查询扩展
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部