数据库内AI模型优化被引量：6

In-database AI Model Optimization

下载PDF

导出

摘要在大量变化着的数据中,数据分析师常常只关心预测结果为特定值的少量数据.然而,利用机器学习模型进行推理的工作流程中,由于机器学习算法库默认数据以单表方式组织,用户必须先通过SQL语句查询出全部数据,即使随后在模型推理过程中会将大量数据丢弃.指出了在这个过程中,如果可以预先从模型中提取信息,就有望能在数据获取阶段快速排除不需要的数据,从而降低数据获取过程中的多表连接代价、进程间通信代价以及模型预测代价,进而加速整个工作流程.以决策树模型为例,首先提出一种预筛选+验证的执行方法对查询过程进行优化,之后给出了从决策树中提取用于预筛选谓词的离线算法,最后在真实数据集上进行测试.实验结果表明,所提出的方法能够对借助决策树模型推理结果对数据进行筛选的应用场景起到较好的加速效果. In a large number of changing data,data analysts often only care about a small amount of data with specific prediction results.However,users must query all the data by SQL before inference step,even if a large amount of data will be dropped,because the machine learning algorithm libraries always assume that the data is organized in a single table.This study points out that in this process,if some hints can be gotten from model in advance,it is expected that unnecessary data can be quickly eliminated in the data acquisition phase,thus reducing the cost of multi-table join,inter-process communication,and model prediction.This work takes a specific kind of machine learning model,i.e.,decision tree,as an example.Firstly,a pre-filtering and validation execution workflow is proposed.Then,an offline algorithm is used to extract pre-filtering predicates from the decision tree.Finally,the algorithm is tested on real world dataset.Experiments show that the method proposed in this study can accelerate the execution of SQL queries containing predicates on decision tree prediction result.

作者钮泽平李国良 NIU Ze-Ping;LI Guo-Liang(Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China)

机构地区清华大学计算机科学与技术系

出处《软件学报》 EI CSCD 北大核心 2021年第3期622-635,共14页 Journal of Software

基金国家自然科学基金(61925205,61632016)。

关键词 SQL 数据库决策树 DB4AI SQL database decision tree DB4AI

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1李国良,周煊赫.轩辕:AI原生数据库系统[J].软件学报,2020,31(3):831-844. 被引量：10
2李国良,周煊赫,孙佶,余翔,袁海涛,刘佳斌,韩越.基于机器学习的数据库技术综述[J].计算机学报,2020,43(11):2019-2049. 被引量：47

二级参考文献1

1李国良,周煊赫,孙佶,余翔,袁海涛,刘佳斌,韩越.基于机器学习的数据库技术综述[J].计算机学报,2020,43(11):2019-2049. 被引量：47

共引文献51

1徐晴,王青洲,李元岳,贺英,姚钊.基于GA-BP模型的微带贴片天线设计和优化[J].电子测量技术,2023,46(21):55-62.
2李国良,周煊赫.轩辕:AI原生数据库系统[J].软件学报,2020,31(3):831-844. 被引量：10
3宋雨萌,谷峪,李芳芳,于戈.人工智能赋能的查询处理与优化新技术研究综述[J].计算机科学与探索,2020,14(7):1081-1103. 被引量：7
4熊安然,熊本海,蒋林树.奶牛数字化养殖技术研究进展[J].中国乳业,2020(11):29-32. 被引量：5
5李国良,周煊赫.面向AI的数据管理技术综述[J].软件学报,2021,32(1):21-40. 被引量：25
6邵荣强,陈燕,龚庆悦.基于API的疾病预测系统数据导入研究[J].软件导刊,2021,20(3):101-105.
7谢印宝.基于多智能代理的试题库设计与实现[J].软件工程,2021,24(5):17-21. 被引量：1
8张洲,金培权,谢希科.学习索引:现状与研究展望[J].软件学报,2021,32(4):1129-1150. 被引量：9
9沈志宏,赵子豪,王华进,刘忠新,胡川,周园春.PandaDB:一种异构数据智能融合管理系统[J].软件学报,2021,32(3):763-780. 被引量：6
10金连源,李国良.基于人工智能方法的数据库智能诊断[J].软件学报,2021,32(3):845-858. 被引量：9

同被引文献33

1王艳,侯哲,黄滟鸿,史建琦,张格林.基于概率模型检查的树模型公平性验证方法[J].软件学报,2022,33(7):2482-2498. 被引量：1
2兰清.智能运维在企业IT管理中的应用分析[J].电子世界,2020(5):89-90. 被引量：2
3高红丽,杨磊,徐升,隆舟,刘凯,胡祥恩.智能导学系统人机交互机制研究[J].中国远程教育,2021(1):50-56. 被引量：5
4王琳燕.oracle数据库系统健康检查及优化[J].数字技术与应用,2014,32(7):172-174. 被引量：2
5杨春松,王宽.基于Oracle数据库与服务器的诊断、分析的研究[J].通信电源技术,2018,35(9):153-154. 被引量：2
6刘久彪.空间数据库反向最近邻聚类方法[J].吉林大学学报（理学版）,2019,57(2):387-392. 被引量：40
7许晓飞,米洁,陈雯柏.人工智能视域下协同过滤推荐系统的工程训练平台[J].实验技术与管理,2019,36(4):109-113. 被引量：6
8吴尚,张靖,徐道磊.Oracle数据库性能的优化设计思路研究[J].数字技术与应用,2019,37(12):167-167. 被引量：6
9邱涛,王斌,舒昭维,赵智博,宋子文,钟延辉.面向关系数据库的智能索引调优方法[J].软件学报,2020,31(3):634-647. 被引量：17
10李国良,周煊赫.轩辕:AI原生数据库系统[J].软件学报,2020,31(3):831-844. 被引量：10

引证文献6

1柳鹏凯,王鑫,刘宝珠,蔡顺汀,李思卓.DB4Trans:数据库内置知识图谱嵌入模型训练引擎[J].计算机学报,2022,45(9):1969-1982. 被引量：1
2黄东海.基于三层架构的网络信息平台数据库建设研究[J].经纬天地,2022(6):48-52. 被引量：1
3虞文波,游进国,牛祥虞.基于强化学习的数据库多属性索引推荐[J].计算机应用研究,2023,40(6):1789-1793. 被引量：1
4翟洁,李艳豪,孟天鑫,郭卫斌,王占全,李冬冬.基于决策树和大模型的个性化计算机实验教学探索与实践[J].实验技术与管理,2023,40(12):8-15. 被引量：3
5韩超,梁策,贾琦婧.基于Oracle数据库性能异常诊断模型探析[J].信息记录材料,2024,25(3):182-185.
6硕天鸾,董一民.人工智能时代数据库技术创新态势研究[J].信息通信技术与政策,2024,50(6):17-22.

二级引证文献6

1全斌.基于Docker容器的航天网络隐私数据安全防护控制研究[J].计算机测量与控制,2024,32(5):201-207.
2王亚明.山西省测绘地理信息综合数据库设计与实现[J].经纬天地,2024(3):68-72.
3厉旭杰,顾雨辰,姚持恩.集成AI大语言模型的在线编程实验平台设计与实现[J].实验技术与管理,2024,41(8):215-221.
4李中,郭云丽.舰船通信关联信息目标数据检索方法研究[J].舰船科学技术,2024,46(18):159-162.
5张金,宫晓利,高小鹏,段峰,熊宏齐.基于通用大语言模型的计算机系统创新实验设计[J].实验技术与管理,2024,41(10):1-9.
6胡国强,弋顺超.大语言模型赋能高校实验教师数字化技能提升的机遇、挑战与应对[J].实验技术与管理,2024,41(10):260-265.

1陈婧,徐佳琦,李心玥,杨熠.无监督机器学习异常检测技术在智能监控领域的应用展望[J].中国金融电脑,2021(2):81-86. 被引量：7
2田琪.基于数据库管理结构的医疗卫生统计工作模式探讨[J].中国医院统计,2020,27(3):242-245. 被引量：6
3毛祥艳.例析中考对“催化剂”考查的新方向[J].数理化学习（初中版）,2006(7):55-58.
4曹杰,顾斌杰,熊伟丽,潘丰.增量式约简最小二乘孪生支持向量回归机[J].计算机科学与探索,2021,15(3):553-563. 被引量：7
5陈美玲,温星来,孙小会,梁永晴.基于SQL的非计划再入院患者查询统计[J].中国病案,2020,21(5):36-38. 被引量：5
6于铁柱,姚广一,盛红瑞,韦金钰.挖掘机液压缸活塞杆镀层局部漏镀原因分析[J].液压气动与密封,2021,41(4):89-91.
7纪承军.MIPS3230计算机UNIX进程间的通信[J].天津通信技术,1994(4):16-19.
8许茜倩.经历推理过程,促进知识理解——“乘法分配律”教学与思考[J].教育研究与评论（小学教育教学）,2021(3):84-86.
9吉宁,王瑞,曹森,马立志.1-MCP结合臭氧处理对水晶葡萄采后贮藏品质的影响[J].包装工程,2021,42(9):56-63. 被引量：12
10叶晓枫,杨志刚,杨培尧,张亚航,陈琦.基于数据分发服务的航天器软件通信框架设计[J].航天器工程,2021,30(2):80-87. 被引量：2

软件学报

2021年第3期

浏览历史

内容加载中请稍等...

数据库内AI模型优化被引量：6

参考文献2

二级参考文献1

共引文献51

同被引文献33

引证文献6

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

数据库内AI模型优化 被引量：6

参考文献2

二级参考文献1

共引文献51

同被引文献33

引证文献6

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

数据库内AI模型优化被引量：6