一种三参数统一化动量方法及其最优收敛速率被引量：1

A Unified Momentum Method with Triple-Parameters and Its Optimal Convergence Rate

下载PDF

导出

摘要动量方法由于能够改善SGD(stochastic gradient descent)的收敛性能而倍受机器学习研究者的关注.随着其在深度学习的成功应用,动量方法出现了众多形式的变体.特别地,产生了SUM(stochastic unified momentum)和QHM(quasi-hyperbolic momentum)两种统一框架.但是,即使是对非光滑凸优化问题,其最优平均收敛性的获得仍然存在着固定迭代步数和无约束等不合理限制.为此,提出了一种更一般的含三参数的统一化动量方法TPUM(triple-parameters unified momentum),能够同时包含SUM和QHM;其次,针对约束的非光滑凸优化问题,在采取时变步长的条件下,证明了所提出的TPUM具有最优的平均收敛速率,并将其推广到随机情况,从而保证了添加动量不会影响标准梯度下降法的收敛性能以及动量方法对机器学习问题的可应用性.典型的L1范数约束hinge损失函数优化问题实验验证了理论分析的正确性. Momentum methods have been receiving much attention in machine learning community due to being able to improve the performance of SGD. With the successful application in deep learning, various kinds of formulations for momentum methods have been presented. In particular, two unified frameworks SUM(stochastic unified momentum) and QHM(quasi-hyperbolic momentum) were proposed. Unfortunately, even for nonsmooth convex problems, there still exist several unreasonable limitations such as assuming the performed number of iterations to be predefined and restricting the optimization problems to be unconstrained in deriving the optimal average convergence. In this paper, we present a more general framework for momentum methods with three parameters named TPUM(triple-parameters unified momentum), which includes SUM and QHM as specific examples. Then for constrained nonsmooth convex optimization problems, under the circumstances of using time-varying step size, we prove that TPUM has optimal average convergence. This indicates that adding the momentum will not affect the convergence of SGD and it provides a theoretical guarantee for applicability of momentum methods in machine learning problems. The experiments on L1-ball constrained hinge loss problems verify the correctness of theoretical analysis.

作者丁成诚陶蔚陶卿 Ding Chengcheng;Tao Wei;Tao Qing(Department of Information Engineering,Army Academy of Artillery and Air Defense of PLA,Hefei 230031;College of Command and Control Engineering,Army Engineering University of PLA,Nanjing 210007)

机构地区中国人民解放军陆军炮兵防空兵学院信息工程系中国人民解放军陆军工程大学指挥控制工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2020年第8期1571-1580,共10页 Journal of Computer Research and Development

基金国家自然科学基金项目(61673394) 安徽省自然科学基金项目(1908085MF193)。

关键词机器学习优化算法非光滑条件动量方法平均收敛速率 machine learning optimization algorithm non-smooth condition momentum methods average convergence rate

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1程禹嘉,陶蔚,刘宇翔,陶卿.Heavy-Ball型动量方法的最优个体收敛速率[J].计算机研究与发展,2019,56(8):1686-1694. 被引量：10
2陶蔚,潘志松,储德军,陶卿.使用Nesterov步长策略投影次梯度方法的个体收敛性[J].计算机学报,2018,41(1):164-176. 被引量：16

二级参考文献3

1陶卿,高乾坤,姜纪远,储德军.稀疏学习优化问题的求解综述[J].软件学报,2013,24(11):2498-2507. 被引量：23
2陶蔚,潘志松,朱小辉,陶卿.线性插值投影次梯度方法的最优个体收敛速率[J].计算机研究与发展,2017,54(3):529-536. 被引量：5
3陶蔚,潘志松,储德军,陶卿.使用Nesterov步长策略投影次梯度方法的个体收敛性[J].计算机学报,2018,41(1):164-176. 被引量：16

共引文献17

1刘云鹏,纪欣欣,裴少通,王胜辉.基于稀疏表示的绝缘子紫外图谱闪络状态分类评估方法[J].高电压技术,2018,44(10):3352-3358. 被引量：12
2程禹嘉,陶蔚,刘宇翔,陶卿.Heavy-Ball型动量方法的最优个体收敛速率[J].计算机研究与发展,2019,56(8):1686-1694. 被引量：10
3张梦晗,汪海,刘欣,鲍蕾.梯度有偏随机DA优化方法的个体收敛界分析[J].计算机工程,2019,45(10):203-207.
4李兴怡,岳洋.梯度下降算法研究综述[J].软件工程,2020,23(2):1-4. 被引量：44
5刘宇翔,程禹嘉,陶卿.梯度有偏情形非光滑问题NAG的个体收敛性[J].软件学报,2020,31(4):1051-1062. 被引量：2
6鲁淑霞,蔡莲香,张罗幻.基于动量加速零阶减小方差的鲁棒支持向量机[J].计算机工程,2020,46(12):88-95. 被引量：4
7曲军谊,鲍蕾,陶卿.非光滑凸问题投影型对偶平均优化方法的个体收敛性[J].模式识别与人工智能,2021,34(1):25-32. 被引量：1
8黄鉴之,陇盛,陶卿.自适应策略下Heavy-Ball型动量法的最优个体收敛速率[J].模式识别与人工智能,2021,34(2):137-145. 被引量：1
9黄鉴之,丁成诚,陶蔚,陶卿.非光滑凸情形Adam 型算法的最优个体收敛速率[J].智能系统学报,2020,15(6):1140-1146. 被引量：5
10张泽东,陇盛,鲍蕾,陶卿.基于AdaBelief的Heavy-Ball动量方法[J].模式识别与人工智能,2022,35(2):106-115. 被引量：1

同被引文献2

1陶蔚,潘志松,储德军,陶卿.使用Nesterov步长策略投影次梯度方法的个体收敛性[J].计算机学报,2018,41(1):164-176. 被引量：16
2程禹嘉,陶蔚,刘宇翔,陶卿.Heavy-Ball型动量方法的最优个体收敛速率[J].计算机研究与发展,2019,56(8):1686-1694. 被引量：10

引证文献1

1曲军谊.基于对偶平均的动量方法研究综述[J].计算机与数字工程,2022,50(11):2443-2448.

1余昕,何志义,宋卫东,谭玉叶.崩落转充填开采地压显现规律及稳定性监测[J].化工矿物与加工,2018,47(7):28-32. 被引量：5
2汪小黎,王晓.基于塔古奇损失函数的直墙式建筑物钢框架抗震性建模研究[J].科技通报,2019,35(11):48-52.
3栗风永,毕忠勤.启发式思维驱动的研究生算法课程在线教学探索[J].海峡科学,2020(5):83-86. 被引量：2
4武星,齐泽宇,王龙军,杨俊杰,夏雪.基于轻量化YOLOv3卷积神经网络的苹果检测方法[J].农业机械学报,2020,51(8):17-25. 被引量：62
5李刚,倪光睿.“一带一路”倡议下武术跨文化传播研究--以白俄罗斯国立体育大学孔子学院为例[J].岭南师范学院学报,2020,41(3):72-78. 被引量：5
6秦苗珺,赵衍刚,卢朝辉.基于极值理论的核电站随机地震响应可靠性分析[J].北京工业大学学报,2020,46(8):892-899.
7袁友宏,刘欣,鲍蕾.求解非凸截断L1-SVM的多阶段非精确线搜割平面方法[J].南京大学学报（自然科学版）,2020,56(1):98-106.
8Zhao Xinhua.Cashmere industry is still in a difficult situation since the second quarter[J].China Textile,2020(5):32-32.
9王芷馨,王冬青,韩增亮,许崇立.基于粒子群优化算法的非线性系统辨识[J].自动化与仪器仪表,2020(5):8-12. 被引量：7
10何庚羲.我国《野生动物保护法》存在的问题及完善建议[J].邯郸职业技术学院学报,2020,33(1):40-44.

计算机研究与发展

2020年第8期

浏览历史

内容加载中请稍等...

一种三参数统一化动量方法及其最优收敛速率被引量：1

参考文献2

二级参考文献3

共引文献17

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种三参数统一化动量方法及其最优收敛速率 被引量：1

参考文献2

二级参考文献3

共引文献17

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种三参数统一化动量方法及其最优收敛速率被引量：1