期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
Apache IoTDB中的多模态数据编码压缩
1
作者 贺文迪 夏天睿 +2 位作者 宋韶旭 黄向东 王建民 《软件学报》 EI CSCD 北大核心 2024年第3期1173-1193,共21页
时间序列数据在工业制造、气象、船舶、电力、车辆、金融等领域都有着广泛的应用,促进了时间序列数据库管理系统的蓬勃发展.面对愈加庞大的数据规模和多样的数据模态,高效的数据存储和管理方式十分关键,而数据的编码压缩愈发成为一个具... 时间序列数据在工业制造、气象、船舶、电力、车辆、金融等领域都有着广泛的应用,促进了时间序列数据库管理系统的蓬勃发展.面对愈加庞大的数据规模和多样的数据模态,高效的数据存储和管理方式十分关键,而数据的编码压缩愈发成为一个具有重要意义和价值的问题.现有的编码方法和相关系统未能充分考虑不同模态的数据特点,或者未把一些时序数据的处理方法应用于数据编码问题中.全面阐述了ApacheIoTDB时序数据库系统中的多模态数据编码压缩方法及其系统实现,特别是面向工业物联网等应用场景.该编码方法较为全面地考虑包括时间戳数据、数值数据、布尔值数据、频域数据、文本数据等多个不同模态的数据,充分挖掘和利用各自模态数据的特点,特别是包括时间戳模态中时间戳序列间隔近似的特点等,进行有针对性的编码方案设计.同时,将实际应用场景中可能出现的数据质量问题因素纳入编码算法的考量中.在多个数据集上的编码算法层面和系统层面的实验评估和分析,验证了该编码压缩方法及其系统实现的效果. 展开更多
关键词 数据编码 时间序列数据 数据库 工业物联网 多模态
下载PDF
Apache TsFile中的短时间序列分组压缩及合并方法
2
作者 刘星宇 宋韶旭 +1 位作者 黄向东 王建民 《软件学报》 北大核心 2025年第3期941-961,共21页
时间序列数据在工业制造、气象、电力、车辆等领域都有着广泛的应用,促进了时间序列数据库管理系统的发展.越来越多的数据库系统向云端迁移,端边云协同的架构也愈发常见,所需要处理的数据规模愈加庞大.在端边云协同、海量序列等场景中,... 时间序列数据在工业制造、气象、电力、车辆等领域都有着广泛的应用,促进了时间序列数据库管理系统的发展.越来越多的数据库系统向云端迁移,端边云协同的架构也愈发常见,所需要处理的数据规模愈加庞大.在端边云协同、海量序列等场景中,由于同步周期短、数据刷盘频繁等原因,会产生大量的短时间序列,给数据库系统带来新的挑战.有效的数据管理与压缩方法能显著提高存储性能,使得数据库系统足以胜任存储海量序列的重任.Apache TsFile是一个专为时序场景设计的列式存储文件格式,在Apache IoTDB等数据库管理系统中发挥重要作用.阐述了Apache TsFile中应对大量短时间序列场景所使用的分组压缩及合并方法,特别是面向工业物联网等序列数量庞大的应用场景.该分组压缩方法充分考虑了短时间序列场景中的数据特征,通过对设备分组的方法提高元数据利用率,降低文件索引大小,减少短时间序列并显著提高压缩效果.经过真实世界数据集的验证,分组方法在压缩效果、读取、写入、文件合并等多个方面均有显著提升,能更好地管理短时间序列场景下的Ts File文件. 展开更多
关键词 数据压缩 时间序列数据 数据库 工业物联网
下载PDF
面向聚合查询的Apache IoTDB物理元数据管理 被引量:9
3
作者 赵东明 邱圆辉 +3 位作者 康瑞 宋韶旭 黄向东 王建民 《软件学报》 EI CSCD 北大核心 2023年第3期1027-1048,共22页
时间序列数据在能源、制造、金融、气候等领域有着广泛应用,聚合查询是相关分析场景中常见的查询需求,快速获取海量数据的概要信息,对于提高数据分析工作的效率具有重要意义.通过存储元数据加速聚合查询是一种有效的提升聚合查询执行效... 时间序列数据在能源、制造、金融、气候等领域有着广泛应用,聚合查询是相关分析场景中常见的查询需求,快速获取海量数据的概要信息,对于提高数据分析工作的效率具有重要意义.通过存储元数据加速聚合查询是一种有效的提升聚合查询执行效率的手段,但现有的时间序列数据库都使用时间窗口切分数据,需要对数据进行实时排序和分区,难以适应物联网场景下高并发、大吞吐量的数据写入特点.因此,提出了一种面向聚合查询的ApacheIoTDB物理元数据管理方案.该方案按照数据文件的物理存储特性切分数据,并结合同步计算和异步计算策略,优先保证数据的写入性能.针对时间序列数据中普遍存在的乱序数据,将时间范围重叠的一组文件抽象为乱序文件组并提供元数据,聚合查询会被重写为3个结合物理元数据和原始数据的子查询高效执行.多个数据集上的实验验证了该方案对聚合查询执行效率的提升效果以及不同计算策略对性能的影响. 展开更多
关键词 预聚合 聚合查询 查询重写 物理元数据管理 时间序列数据库
下载PDF
兼顾行列的时序数据质量规则发现 被引量:2
4
作者 丁小欧 李映泽 +2 位作者 王晨 王宏志 李昊轩 《软件学报》 EI CSCD 北大核心 2023年第3期1065-1086,共22页
智能装置设备产生的时序数据增长迅速,存在严重的数据质量问题.劣质时序数据质量管理和数据质量提升技术需求日益迫切.时序数据的有序时窗、行列关联等特点,为时序数据质量语义表达提出了挑战.提出了一种同时考虑时序数据在行与列上的... 智能装置设备产生的时序数据增长迅速,存在严重的数据质量问题.劣质时序数据质量管理和数据质量提升技术需求日益迫切.时序数据的有序时窗、行列关联等特点,为时序数据质量语义表达提出了挑战.提出了一种同时考虑时序数据在行与列上的数据依赖信息的数据质量规则,即时序否定约束TDC.研究了TDC的定义与构建方法,从时窗与多阶表达式运算这两个方面,对已有的数据质量规则体系进行表达力的扩展,并提出针对兼顾行列的时序数据质量规则挖掘方法.在真实时序数据集上开展大量实验,实验结果验证了该方法能够有效且高效地挖掘时序数据中隐藏的数据质量规则.对比实验的结果表明,该方法能够有效地对行与列上的关联信息进行谓词构造;在质量规则挖掘效果上优于单纯的行上约束挖掘方法以及单纯的列上约束挖掘方法. 展开更多
关键词 数据质量管理 数据质量规则 时序数据管理 工业大数据
下载PDF
面向机器学习应用的可解释性需求分析框架 被引量:1
5
作者 裴忠一 刘璘 +1 位作者 王晨 王建民 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期983-1002,共20页
基于大数据机器学习的智能软件研发过程需要综合运用软件工程、数据与领域知识工程、机器学习等多方面的知识和工具,涉及的研究主题和人员角色众多,技术实现手段复杂、研发难度大.面向智能软件的需求工程需要面对领域知识、业务知识、... 基于大数据机器学习的智能软件研发过程需要综合运用软件工程、数据与领域知识工程、机器学习等多方面的知识和工具,涉及的研究主题和人员角色众多,技术实现手段复杂、研发难度大.面向智能软件的需求工程需要面对领域知识、业务知识、数据科学交织带来的挑战.然而,如何将领域知识和端到端的机器学习技术恰当地融合到给定的业务流程之中,以及如何应对工业、医疗等高可信要求场景中的可解释性需求,仍是亟待探索的重要研究问题.调研了近年来面向机器学习应用的需求工程研究文献,对该领域的发展现状、核心问题和代表性方法进行综述.提出了面向机器学习应用的可解释性需求分析框架.基于该框架,通过一个工业智能应用案例分析了未来待研究的重要问题,展望了可行的研究路径. 展开更多
关键词 需求工程 机器学习 领域模型 工业工程 可解释性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部