AdamW优化

   日期:2024-12-27    作者:6eh9f 移动:http://ljhr2012.riyuangf.com/mobile/quote/63945.html

由于AdamW是Adam+L2正则化的改进,所以这里再详细总结一下正则化方法

 

正则化:所有防止过拟合,提升模型泛化能力的方法(包括常见的L1,L2,dropout等,可能还有许多更为广义上的正则化措施)

L1,L2正则化:利用L1,L2番薯规范网络参数w的方法,注意这里只说了w没有说b(y=wx+b),因为w决定曲线形状,b偏置项仅决定位置,正则化b意义不大

范数:空间中两个点距离的定义

例如L2范数就是我们常说的欧氏距离,高维向量的L2范数即使用勾股定理的公式计算该点到坐标原点的距离

L1范数:

 当然范数这个概念是很大的

但是只有当P大于等于1时,构成的集合才是凸集,凸函数对应的就是凸优化问题,凸优化是更为简单的问题

我们使用的L1,L2某种程度上就是在使用凸集特性

 

我们知道,训练神经网络的过程即找到一组参数,使得损失函数达到最小。但这一组最优参数并不是唯一的,如果某一层或某几层的参数扩大几倍,可以通过缩小其他层的参数来达到与之前损失函数相同的效果。所以这个参数究竟优化到一个什么值上,与其初始化有很大关系


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号