目前不确定XML的Top-k关键字查询仅返回概率值排在前k的根节点,需要进一步的处理才能构建满足特定条件下的子树,效率低下.针对这一问题,定义了一种新的基于最小相关联通子树的Top-k查询语义SRCT-Top-k(smallest related connected subtr...目前不确定XML的Top-k关键字查询仅返回概率值排在前k的根节点,需要进一步的处理才能构建满足特定条件下的子树,效率低下.针对这一问题,定义了一种新的基于最小相关联通子树的Top-k查询语义SRCT-Top-k(smallest related connected subtree Top-k),SRCT-Top-k查询返回概率值排在前k的最小相关联通子树,并提出基于动态Keyw ord数据仓的Pr ListTop-k算法来处理SRCT-Top-k查询.Pr List Top-k算法仅扫描一次动态Keyw ord数据仓就能构建满足特定条件下的子树,并制定了过滤策略减少了中间结果.理论分析和实验结果表明,Pr List Top-k是一种高效的不确定XML的Top-k查询算法.展开更多
针对已有方法在XML数据上基于SLCA(smallest lowest common ancestor)语义处理查询时存在的冗余计算问题,提出了一种基于列存储的倒排索引CList,用于避免已有方法的倒排表中相同数据重复存储的问题。基于CList,提出了一种自顶向下的查...针对已有方法在XML数据上基于SLCA(smallest lowest common ancestor)语义处理查询时存在的冗余计算问题,提出了一种基于列存储的倒排索引CList,用于避免已有方法的倒排表中相同数据重复存储的问题。基于CList,提出了一种自顶向下的查询处理算法TDCOL(top-down SLCA computation based oncol-umn storage)来提升系统的处理性能。对于给定查询Q={k1,k2,...,km}的每个公共祖先结点,TDCOL在保证仅处理一次的情况下即可得到所有满足条件的结果,因而将时间复杂度降为O(m′|LID1|′lb|Skmaxch(v)|),其中|LID1|是Q的最短倒排表中包含的不同ID值的数目,Skmaxch(v)是所有被处理结点的包含关键字的孩子结点集中的最大集合。最后通过比较各种指标,从不同角度对TDCOL算法的性能优势进行了验证。展开更多
为了解决基于LCA(Lower Common Ancestor)的XML关键字查询丢失语义的问题,提出了一种基于"自然语言生成技术(Natural Language Generation,NLG)"的XML关键字查询技术,将NLG的内容规划应用到XML文档,产生针对用户查询的消息语...为了解决基于LCA(Lower Common Ancestor)的XML关键字查询丢失语义的问题,提出了一种基于"自然语言生成技术(Natural Language Generation,NLG)"的XML关键字查询技术,将NLG的内容规划应用到XML文档,产生针对用户查询的消息语句集,通过对消息语句集的筛选既可以实现基于语义的XML关键字查询,又可以极大地提高查询效率。展开更多
文摘目前不确定XML的Top-k关键字查询仅返回概率值排在前k的根节点,需要进一步的处理才能构建满足特定条件下的子树,效率低下.针对这一问题,定义了一种新的基于最小相关联通子树的Top-k查询语义SRCT-Top-k(smallest related connected subtree Top-k),SRCT-Top-k查询返回概率值排在前k的最小相关联通子树,并提出基于动态Keyw ord数据仓的Pr ListTop-k算法来处理SRCT-Top-k查询.Pr List Top-k算法仅扫描一次动态Keyw ord数据仓就能构建满足特定条件下的子树,并制定了过滤策略减少了中间结果.理论分析和实验结果表明,Pr List Top-k是一种高效的不确定XML的Top-k查询算法.
文摘针对已有方法在XML数据上基于SLCA(smallest lowest common ancestor)语义处理查询时存在的冗余计算问题,提出了一种基于列存储的倒排索引CList,用于避免已有方法的倒排表中相同数据重复存储的问题。基于CList,提出了一种自顶向下的查询处理算法TDCOL(top-down SLCA computation based oncol-umn storage)来提升系统的处理性能。对于给定查询Q={k1,k2,...,km}的每个公共祖先结点,TDCOL在保证仅处理一次的情况下即可得到所有满足条件的结果,因而将时间复杂度降为O(m′|LID1|′lb|Skmaxch(v)|),其中|LID1|是Q的最短倒排表中包含的不同ID值的数目,Skmaxch(v)是所有被处理结点的包含关键字的孩子结点集中的最大集合。最后通过比较各种指标,从不同角度对TDCOL算法的性能优势进行了验证。
文摘为了解决基于LCA(Lower Common Ancestor)的XML关键字查询丢失语义的问题,提出了一种基于"自然语言生成技术(Natural Language Generation,NLG)"的XML关键字查询技术,将NLG的内容规划应用到XML文档,产生针对用户查询的消息语句集,通过对消息语句集的筛选既可以实现基于语义的XML关键字查询,又可以极大地提高查询效率。