由于AdamW是Adam+L2正则化的改进,所以这里再详细总结一下正则化方法
正则化:所有防止过拟合,提升模型泛化能力的方法(包括常见的L1,L2,dropout等,可能还有许多更为广义上的正则化措施)
L1,L2正则化:利用L1,L2番薯规范网络参数w的方法,注意这里只说了w没有说b(y=wx+b),因为w决定曲线形状,b偏置项仅决定位置,正则化b意义不大
范数:空间中两个点距离的定义
例如L2范数就是我们常说的欧氏距离,高维向量的L2范数即使用勾股定理的公式计算该点到坐标原点的距离
L1范数:
当然范数这个概念是很大的
但是只有当P大于等于1时,构成的集合才是凸集,凸函数对应的就是凸优化问题,凸优化是更为简单的问题
我们使用的L1,L2某种程度上就是在使用凸集特性
我们知道,训练神经网络的过程即找到一组参数,使得损失函数达到最小。但这一组最优参数并不是唯一的,如果某一层或某几层的参数扩大几倍,可以通过缩小其他层的参数来达到与之前损失函数相同的效果。所以这个参数究竟优化到一个什么值上,与其初始化有很大关系