大模型｜如何估计LLM推理和训练所需的GPU内存？

日期：2024-12-29 作者：0dn1b 评论：0 移动：http://ljhr2012.riyuangf.com/mobile/news/12414.html

核心提示：在实际工作中，经常有人问，7B、14B或70B的模型需要多大的显存才能推理？如果微调他们又需要多大的显存呢？为了回答这个问题整理

在实际工作中，经常有人问，7B、14B或70B的模型需要多大的显存才能推理？如果微调他们又需要多大的显存呢？为了回答这个问题整理一份训练或推理需要显存的计算方式。如果大家对具体细节不感兴趣，可以直接参考经验法则评估推理或训练所需要的资源。更简单的方式可以通过这个工具或者huggface官网计算推理/训练需要的显存工具在线评估。

开始介绍之前，先说一个重要的概念——数据精度。数据精度指的是信息表示的精细程度，在计算机中是由数据类型和其位数决定的。如果想要计算显存，从“原子”层面来看，就需要知道我们的使用数据的精度，因为精度代表了数据存储的方式，决定了一个数据占多少bit。目前，精度主要有以下几种：

4 Bytes: FP32 / float32 / 32-bit
2 Bytes: FP16 / float16 / bfloat16 / 16-bit
1 Byte: int8 / 8-bit
0.5 Bytes: int4 / 4-bit

推理: 参数量 * 精度。例如，假设模型都是16-bit权重发布的，也就是说一个参数消耗16-bit或2 Bytes的内存，模型的参数量为70B，基于上述经验法则，推理最低内存需要70B * 2Bytes = 140G。
训练: 4 - 6 倍的推理资源。

在模型推理阶段，需要的资源主要有三部分：模型的权重、KV Cache和激活（在推理过程中创建的张量）。

加载模型权重（即模型大小）占用资源主要依赖于模型的参数量和精度。其中，参数量基本不变，精度可以通过模型量化技术进行优化。尽管量化会影响模型的性能，但相比于选择更高精度的小模型来说，量化技术更受青睐。

公式[1]

模型的大小 = 模型的参数量 * 精度

十亿参数模型在 32 位、16 位和 8 位精度下所需的近似 GPU 内存[2]

KV Cache

在Transformer的解码阶段，每次推理生成一个token，依赖于之前的token结果，如果每次都对所有token重新计算一次，代价非常大。为了避免重新计算，通过KV Cache技术将其缓存到GPU内存中。

公式 [3]

KV Cache = 2 * Batch Size * Sequence Length * Number of Layers * Hidden Size * Precision 注意：第一个因子2解释了K和V矩阵。通常，在Transformer中，Hidden Size和Number of Layers的值可以在模型相关的配置文件中找到。

激活内存

在模型的前向传播过程中，必须存储中间激活值。这些激活值代表了神经网络中每层的数据在向前传播时的输出。它们必须保持为 FP32 格式，以避免数值爆炸并确保收敛。

公式 [4]

Activation Memory = Batch Size * Sequence Length * Hidden Size * (34 + (5 * Sequence Length * Number of attention heads) / (Hidden Size))

训练阶段所需的资源，除了上述介绍的模型权重、KV Cache和激活内存之外，还需要存储优化器和梯度状态，因此，训练比推理需要更多的资源。

优化器内存

优化器需要资源来存储参数和辅助变量。这些变量包括诸如Adam或SGD等优化算法使用的动量和方差等参数。这取决于优化状态的数量及其精度。例如，AdamW优化器是最流行的微调llm，它为模型的每个参数创建并存储2个新参数。如果我们有一个70B的模型，优化器将创建140B的新参数！假设优化器的参数为float32，即每个参数占用4字节的内存。优化器至少需要 140B * 4 Bytes = 516 G的资源。

其中，不同优化器的状态数量如下[1]：

AdamW (2 states): 8 Bytes per parameter
AdamW (bitsandbytes Quantized): 2 Bytes per parameter
SGD (1 state): 4 Bytes per parameter

梯度

在模型的反向传播过程中计算梯度值。它们表示损失函数相对于每个模型参数的变化率，对于在优化过程中更新参数至关重要。作为激活值，它们必须存储在 FP32 中以保持数值稳定性 [1]。因此，每个参数占用4字节的内存。例如，一个70B的模型，计算梯度所需的内存需要 70B * 4 Bytes = 280 G左右。

在本文中，我们介绍的评估方法，都是基于Transformer架构推算的，该评估方法不适合Transformer以外的其他体系结构。同时，目前存在大量的框架、模型和优化技术，估计运行大型语言模型的确切内存可能很困难。然而，本文可作为估计执行 LLM 推理和训练所需内存资源的起点。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类最新资讯

0 条相关评论

相关文章

最新文章

推荐文章

推荐图文

最新资讯

点击排行

• SEO艺术（第3版）	• 如何有效进行用户分层，提升运营效果？
• 百度快照搜刮引擎在哪_百度快照搜刮引擎在那边	• 广西驾校哪个口碑最好？
• 用AI工具生成高清美女写真，轻松打造你的虚拟女	• 安兔兔
• 【TG88（移动版）铃声多多下载】海信TG88 移动	• 明教高手如林，最强的15位高手，等级排名，第一
• 计算所AI数智赋能项目荣获2024年全国智慧企业建	• 巨人网络发布“千影”有声游戏大模型加码“游

大模型 ｜ 如何估计LLM推理和训练所需的GPU内存？