分享好友 最新动态首页 最新动态分类 切换频道
AdEMAMix: 一种创新的神经网络优化器
2024-12-26 23:59

这是9月发布的一篇论文,Pagliardini等人在其论文中提出了一种新的优化算法——AdEMAMix。这种算法旨在解决当前广泛使用的Adam及其变体(如AdamW)在利用长期梯度信息方面的局限性。研究者们通过巧妙地结合两个不同衰减率的指数移动平均(EMA),设计出了这种新的优化器,以更有效地利用历史梯度信息。

AdEMAMix: 一种创新的神经网络优化器

研究动机

作者们指出,传统的动量优化器通常使用单一EMA来累积过去的梯度,这种方法面临一个两难困境:

  1. 较小的衰减率(β)会导致优化器对近期梯度给予较高权重,但快速遗忘旧梯度。
  2. 较大的衰减率可以保留更多旧梯度信息,但会减慢对近期梯度的响应。

研究者们发现,即使在数万步训练之后,梯度信息仍然可能保持有用。这一发现促使他们设计了AdEMAMix,以同时利用近期和远期的梯度信息。

AdEMAMix算法

核心思想

AdEMAMix的核心在于使用两个EMA项:

  1. 快速EMA(低β值): m₁ = β₁m₁ + (1-β₁)g
  2. 慢速EMA(高β值): m₂ = β₃m₂ + (1-β₃)g

其中g为当前梯度,β₁和β₃分别为快速和慢速EMA的衰减率。

参数更新规则

作者们给出了AdEMAMix的参数更新规则:

θ = θ - η((m̂₁ + αm₂) / (√v̂ + ε) + λθ)

其中θ为模型参数,η为学习率,α为权衡两个EMA项的系数,v̂为Adam中的二阶矩估计,λ为权重衰减系数。

稳定性改进

为了提高训练稳定性,研究者们引入了α和β₃的调度器。这些调度器在训练初期逐渐增加α和β₃的值,避免了由于过大的动量值导致的早期训练不稳定。

AdEMAMix的β₃调度器。与线性调度相比,该调度器在β值较小时增长较快,在β值较大时增长较慢,更好地适应了不同β值对优化过程的影响。

实验设置

研究者们在两个主要任务上评估了AdEMAMix的性能:

语言建模任务

  • 模型:Transformer架构,参数规模从110M到1.3B
  • 数据集:RedPajama v2
  • 评估指标:验证集perplexity、训练速度、模型遗忘程度

视觉任务

  • 模型:Vision Transformer (ViT),24M和86M参数
  • 数据集:ImageNet-1k和ImageNet-21k
  • 评估指标:测试集损失、Top-1准确率

主要实验结果

语言建模性能

1.3B参数语言模型在不同训练token数下的性能比较。图中显示AdEMAMix仅使用101B tokens就达到了AdamW使用197B tokens的性能,节省了近50%的训练数据。

研究结果表明,AdEMAMix在各种模型规模下均显著优于AdamW:

  1. 对于110M参数模型,AdEMAMix训练256k步的性能相当于AdamW训练500k步。
  2. 对于1.3B参数模型,AdEMAMix使用770k步(约101B tokens)即可达到AdamW使用1.5M步(约197B tokens)的性能。

这些结果充分说明了AdEMAMix在优化效率上的显著优势。

模型遗忘分析

AdEMAMix和AdamW在训练过程中对特定batch的遗忘程度比较。AdEMAMix表现出更慢的遗忘速度,有助于提高学习稳定性。

作者们通过跟踪某个batch在训练过程中的loss变化来衡量遗忘程度。结果表明:

  1. AdEMAMix模型遗忘训练数据的速度更慢。
  2. 使用AdEMAMix时,早期训练的batch对最终模型的影响更大。

研究者们认为,这一特性有助于提高学习的稳定性和泛化能力。

视觉任务性能

在视觉任务中,AdEMAMix同样表现出色:

  1. 在ImageNet-21k上,AdEMAMix consistently优于AdamW,尤其是在数据量较大时。
  2. 在ImageNet-1k上,当模型容量与数据量比例适中时,AdEMAMix仍能获得性能提升。

这些结果表明,AdEMAMix的优势不仅限于语言建模任务,在计算机视觉领域同样适用。

计算开销

尽管AdEMAMix引入了额外的计算步骤,但研究者们发现其带来的计算开销可以忽略不计:

  • 训练时间仅比AdamW略长(不足2%增加)
  • 在分布式训练环境中,预期额外开销会进一步减少

考虑到AdEMAMix可以显著减少达到同等性能所需的训练步数,作者们认为这微小的额外开销是完全可以接受的。

结论与未来展望

Pagliardini等人通过AdEMAMix成功地在多个任务上展现出显著优于AdamW的性能。这种新的优化器不仅加快了模型收敛速度,还提高了学习稳定性,为大规模神经网络的高效训练提供了新的方法。

研究结果表明,梯度信息可以在数万步训练中保持有效,这一发现为进一步探索非EMA类型的梯度累积方法开辟了新方向。作者们建议未来的研究可能会探索:

  1. 在更多任务和模型架构上验证AdEMAMix的有效性
  2. 研究AdEMAMix对模型泛化能力的影响
  3. 探索将AdEMAMix与其他优化技术(如学习率调度、梯度裁剪等)结合的方法

总的来说,AdEMAMix为深度学习优化领域带来了新的思路,有望在未来的研究和应用中发挥重要作用。研究者们期待看到这种新优化器在更广泛的场景中的应用和进一步的改进。

论文地址:

最新文章
逾期通讯录消除攻略:如何有效处理不良记录,恢复信用?
1. 到相关的逾期联系人管理平台或应用。2. 找到逾期联系人的列表,常常这些列表会在“逾期管理”或“联系人管理”等板块中。3. 选中您想要撤销的逾期联系人。4. 点击“编辑”或“管理”按,进 系人的详细信息页面。5. 查找“撤销逾期”或“
长沙十大网络舆情公关公司排名揭晓:为城市形象护航
在当今信息高速传播的时代,网络舆情的影响力日益凸显。长沙,这座充满活力的城市,也有着一批专业的网络舆情公关公司,在维护城市形象和企业声誉方面发挥着重要作用。长沙网络舆情公关公司具备先进的舆情监测技术。他们能够实时监控各类网
超好用:免费好用的图床
经常写文章的小伙伴可能会头疼,图片需要一张一张的上传,费劲也耗时,今天就推荐几款超简单的图床工具。图床就是一个在网络上存储图片的地方,目的是为了节省本地服务器空间,加快图片打开速度。话不多说,进入正题。永久存储免注册,图片
探秘系统设计界面神器,打造精美交互界面
在当今数字化浪潮汹涌澎湃的时代,系统设计界面的质量直接关乎用户与软件、平台交互的顺畅性与愉悦感。一款出色的系统设计界面软件,犹如一位幕后的魔法大师,能够将设计师的创意灵感精准地转化为直观、实用且富有魅力的用户界面。无论是打
魔音工坊的文案制作过程融合了先进的人工智能技术和大数据分析,为客户提供了一种全新的文案创作体验。以下是具体步骤和优化后的
在数字化时代人工智能的应用已经渗透到各行各业文案创作也不例外。魔音工坊作为一家专注于音频制作和文案生成的企业凭借其特别的技术,为广大创作者提供了高效、便捷的文案生成解决方案。本文将深入探讨魔音工坊的文案制作过程,揭示其背后
淘宝店铺该应该如何补单才会迅速的提升排名?
五、成交额=客单价成交笔数,成交笔数=流量转化率,流量=直通车投入费用/平均点击费用六、利润=营业额利润率=客户价格成交笔数利润率=客户价格流量转换率利润率=客户价格转换率转换率开通费用/平均点击费用在综合排名中,店铺质量得分会影
重磅通报“正宗南通长牌怎么开挂”玩家曝光开挂详情-知乎
您好:正宗南通长牌这款游戏可以开挂,确实是有挂的,咨询加微信【5722507】很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实
抖音直播的5种主流玩法
抖音直播的主流玩法有哪些,抖音是时下特别热门的营销平台,那么在直播方面有哪些主流玩法呢。一起来看看下面的介绍吧。1、 模式分析:兴趣电商+Tiktok选择联盟,即商家在选择联盟中选择高佣金产品,使用直播内容(如前文写的跑步)激发观
苹果手机最好用的浏览器【手机最好用的浏览器 知乎】
有时候我们在手机上看视频或听音乐时,遇到好的在线资源想下载回来,这时就需要用到嗅探功能去找到资源的真实地址,再把它下载到手机里。带有这种功能的浏览器在安卓系统的手机里比比皆是,但苹果手机里却是凤毛麟角,不是功能不够好,就是
相关文章
推荐文章
发表评论
0评