来源:雪球App,作者: 王铮Silvia,(https://xueqiu.com/2043888071/279919114)
内容导读
本文是SemiAnalysis的行业专家对最近爆火的Groq推理系统进行了像素级的拆解,给出了详解Groq优劣势的推理Token经济学解释(Inference Tokenomics),Enjoy~
内容目录
Groq改变推理服务游戏规则,受益于速度和供应链多元化
评估是否具有革命性取决于“性能/TCO”
Groq的低价是基于性能/TCO,还是融资故事?
Groq的芯片架构特点,以及多芯片拟合模型并联网
Groq芯片的晶圆成本明显低于,但参数良率低且固定成本高
由于无延迟优化和吞吐量优化,Groq的硅材料清单具有芯片架构优势
客户总拥有成本:H100系统为1.15万美元/月,Groq系统为12.24万美元/月
Groq需将处理速度提高7倍获得盈亏平衡
关于我们
智能小巨人科技是诞生于“AI技术革命+全面注册制”背景下的“精品咨询+AI数字化”服务商;核心产品服务:企业战略智库、AI战略咨询+AI应用落地、资本品牌解决方案、创始人品牌打造等。
AI商业观察:拥抱AI的中国速度!
智能小巨人科技战略咨询服务手册
目前我们自营的社群矩阵已覆盖5000+高知人群,现在重新开放读者群,欢迎对我们的内容服务、社群资源感兴趣的朋友,添加小智的企业微信,发送姓名、职务信息后为您匹配垂直社群,或者围观小智朋友圈建立联系!
加入VIP读者群3部曲:
第1步:扫描二维码加小智企微
第2步:发送您的姓名、职务信息
第3步:为您匹配VIP读者群
本文由智能小巨人科技综合自semianalysis、新智元编译,参考链接见文末
Groq改变推理服务游戏规则
受益于速度和供应链多元化
人工智能硬件初创公司 Groq 最近一直在推介演示,因为他们在其推理 API 上展示了领先的开源模型 Mistral Mixtral 8x7b,令人印象深刻。
它们的吞吐量是其他推理服务的 4 倍,同时收费不到 Mistral 本身的 1/3。
Groq 对于单个序列具有真正惊人的性能优势。这可以使诸如 “思想链” 之类的技术在现实世界中更加有用。
此外,随着 AI 系统变得自主,LLM 的输出速度需要更高,以用于代理等应用程序。同样,codegen 也需要令牌输出延迟显着降低。实时 Sora 风格的模型可能是一个令人难以置信的娱乐途径。如果延迟太高,这些服务甚至可能对终端市场客户不可行或无法使用。
这导致了关于 Groq 的硬件和推理服务对AI行业具有革命性的大量炒作。虽然它肯定会改变某些市场和应用的游戏规则,但速度只是其中的一部分。
供应链多元化是另一个对 Groq 有利的因素。他们的芯片完全在美国制造和包装。、、和其他AI芯片需要来自韩国的内存,以及来自台湾的芯片/高级封装。
评估是否具有革命性取决于“性能/TCO”
这些对 Groq 来说是积极的,但评估硬件是否具有革命性的主要公式是性能/总拥有成本。
这是 非常了解的:
AI 时代的黎明已经到来,理解 AI 驱动软件的成本结构与传统软件有很大不同是至关重要的。
芯片微架构和系统架构在这些创新的新形式软件的开发和可扩展性中起着至关重要的作用。
运行 AI 软件的硬件基础设施对资本支出和运营支出以及毛利率的影响明显更大,而前几代软件的开发人员成本相对较高。
因此,更加重要的是要投入相当多的精力来优化您的 AI 基础设施,以便能够部署 AI 软件。
在基础设施方面具有优势的公司也将在使用AI部署和扩展应用程序的能力方面具有优势。
——《 AI基础设施至上: 系统比微架构更重要》
的基础设施优势是为什么 Gemini 1.5 与 OpenAI GPT-4 Turbo 相比更便宜的原因,同时在许多任务中表现更好,尤其是长序列代码。
为单个推理系统使用了更多的芯片,但它们具有更好的性能/TCO。
在这种情况下,性能不仅仅是单个用户每秒的原始token数,即延迟优化。在评估 TCO 时,必须考虑在硬件上同时提供服务的用户数量。
这就是为什么改进 LLM 推理的边缘硬件需求非常脆弱或没有吸引力的主要原因。大多数边缘系统无法弥补正确运行LLM所需的硬件成本增加,因为这种边缘系统无法在大量用户中分摊。
至于以极高的 batch sizes、IE 吞吐量和成本优化服务于众多用户,GPU 才是王道。
Groq的低价是基于性能/TCO
还是融资故事
正如我们在
我们在报告中更深入地研究了量化和其他硬件 GPU 选项,例如 MI300X,但关键的要点是,那些服务于未修改型号 (FP16) 的产品需要64 + 的batch sizes才能盈利。
我们相信,Mistral和Fireworks在盈亏平衡方面为Mistral提供了微薄的利润率。
对于其他提供 Mixtral API 的人来说,情况并非如此。他们要么在数据上撒谎,要么烧VC的钱以获取客户群。
Groq 采取了大胆的举措,在定价上与这些公司相匹配,其每百万token定价极低,为0.27美元。
他们的定价是因为性能/TCO计算 (如total和Fireworks) 吗?还是有补贴来推动炒作?请注意,Groq 的上一轮融资是在 2021 年,去年的 SAFE 为 5000 万美元,目前他们正在筹集资金。
Groq的芯片架构特点
以及多芯片拟合模型并联网
让我们来看看Groq的芯片、系统、成本分析,以及他们如何实现这种性能。
Groq 的芯片具有完全确定的 VLIW 架构,没有缓冲区,在 Global Foundries 14nm 工艺节点上制造,芯片尺寸达到约 725mm2。它没有外部存储器,在处理过程中将权重、KVCache 和激活等全部保存在芯片上。
由于每个芯片只有 230MB 的 SRAM,因此没有有用的模型可以真正安装在单个芯片上。相反,他们必须利用许多芯片来拟合模型并将它们联网在一起。
在Mixtral模型的情况下,Groq必须连接8个机架,每个机架有9个服务器,每台服务器有 8 个芯片。总共有 576 个芯片来构建推理单元并为 Mixtral 模型提供服务。
相比之下, 的单个 H100 可以以低batch sizes适应模型,并且两个芯片有足够的内存来支持大的batch sizes。
Groq芯片的晶圆成本明显低于
但参数良率低且固定成本高
用于制造 Groq 芯片的晶圆成本可能低于每片晶圆 6,000 美元。
与 的 H100 相比,在 5nm 的定制变体上,芯片尺寸为814mm2,称为4N。这些晶圆的成本接近每片晶圆 16,000 美元,
另一方面,与相比,Groq的架构难以实现高良率量产,Nvidia 具有极高的参数良率,因为它们大多数 H100 SKU 禁用了 ~15% 的芯片。
此外, 从 SK Hynix 购买了 80GB 的 HBM,每个 H100 芯片的价格约为1,150 美元。Nvidia 还必须支付的 CoWoS 并承担那里的收益损失,而Groq 没有任何片外存储器。
Groq 芯片的原材料清单要低得多。
Groq 也是一家初创公司,因此他们的芯片产量要低得多/相对固定成本要高得多,而这包括必须为其定制 ASIC 服务向 支付巨额保证金。
由于无延迟优化和吞吐量优化
Groq的硅材料清单具有芯片架构优势
下表显示了三个部署,一个是针对 Groq 的,具有当前的管道并行性和batch size 3,我们听说他们将在下周在生产中实施。
其他部署概述了具有推测解码的延迟优化 H100 推理部署以及吞吐量优化的 H100 推理部署。
上面的表大大简化了经济性 (同时忽略了我们稍后将深入探讨的大量系统级成本,并且还忽略了 的巨大利润)。
这里的重点是表明,与延迟优化的 系统相比,Groq 在每个输出token的硅材料清单方面具有芯片架构优势。
8xA100s 可以为 Mixtral 提供服务,并实现每个用户每秒〜220个tokens的吞吐量,而 8xH100s 可以达到每个用户每秒〜280个tokens,而无需推测性解码。通过推测性解码,8xH100 推理单元可以实现每个用户每秒接近420个tokens的吞吐量。吞吐量可能会超过这个数字,但是在MoE模型上实现推测性解码是具有挑战性的。
延迟优化的 API 服务目前不存在,因为经济性太差了。
API 提供商目前没有看到为降低延迟而收取 10 倍以上费用的市场。一旦代理和其他极低延迟的任务变得越来越流行,基于 GPU 的 API 提供商可能会在当前吞吐量优化 API 的同时启动延迟优化 API。
一旦Groq下周实施其批处理系统,具有推测性解码的延迟优化系统在吞吐量和成本方面仍远远落后于没有推测性解码的Groq。
此外,Groq 使用的是更老的 14nm 工艺技术,并向 支付了可观的芯片利润。如果Groq获得更多资金,并且可以在2025年下半年开始生产下一代4nm芯片,那么经济性可能会开始发生重大变化。
请注意, 远非坐以待毙,因为我们认为他们将在不到一个月的时间内宣布他们的下一代 B100。
在吞吐量优化系统中,经济性会发生重大变化。
在 BOM 基础上, 系统每美元性能提高了一个数量级,但每个用户的吞吐量较低。对于吞吐量优化方案,Groq 在体系结构上根本没有竞争力。
但是,上面介绍的简化分析并不是为购买和部署系统的人查看业务案例的正确方法,因为该分析忽略了系统成本、利润率、功耗等。
客户总拥有成本:
H100系统为1.15万美元/月
Groq系统为12.24万美元/月
下面,我们将提供性能/总拥有成本分析。
一旦我们考虑到这些因素,Tokenomics(cred swyx的时髦新词)看起来就大不相同了。在 方面,我们将使用此处解释的 GPU 云经济性,如下所示。
资本成本包括门槛率,即考虑提出此商业案例的人期望获得的投资回报,以证明项目的风险是合理的。
将巨大的毛利率应用于其 GPU 基板。此外,服务器收取的 350,000 美元价格远高于 H100 服务器的超大规模成本,还包括内存、8 个总带宽为 3.2Tbps 的 InfiniBand (此推理应用程序不需要)以及叠加在 Nvidia 利润率之上的可观的 OEM 利润率。
对于Groq,我们正在估算系统成本,并考虑有关芯片、封装、网络、CPU、内存的细节,同时假设整体ODM利润率较低。我们也没有包括 Groq 因销售硬件而收取的利润,因此,虽然这似乎是 Apples vs Oranges,但它也是 Groq 的成本与推理 API 提供商成本的公平比较,因为两者都提供相同的产品/模型。
值得注意的是,8个 GPU只需要2个CPU,但Groq的芯片系统目前有144个CPU和144TB的RAM。
把这些组件的成本加在一起后可以发现,每台Groq LPU服务器的成本为3.5万美元,包括8个Groq LPU和所有上述的硬件。
Mixtral Groq推理部署采用了8个机架,每个机架有9台服务器,总成本为252万美元,整个部署共有576个LPU芯片。
相比之下,一个标准的H100 HGX系统的初始投资成本为35万美元,包含了8个H100芯片。而大多数基于H100的Mixtral推理实例,只需要用到其中的2个H100芯片。
假设资本回报率为18%并且预计使用寿命为5年,H100系统的平均成本为8888美元/月,再加上2586美元/月的托管费用,整体的拥有成本达到了11474美元。
相比之下,更大规模的Groq系统的总拥有成本,高达每月12.24万美元。
Groq需将处理速度提高7倍获得盈亏平衡
在针对延迟优化的配置下,8块 H100 服务器的部署成本为每百万Token 5.2 美元,而针对吞吐量优化的2个 H100 服务器的部署仅需 0.57 美元。
与之相对,Groq 的解决方案每百万Token的成本为 1.94 美元,比8个 H100 的配置更经济,也更高效。
和许多提供推理服务的公司一样,Groq 目前的运营模式尚未实现盈利。而想要达到收支平衡,Groq 需要将其处理速度提高超过 7 倍。
这一目标比基于8个 H100 服务器的延迟优化配置要容易得多——在相同定价下要实现盈亏平衡,效率需要提高近 20 倍。
Groq的 商业模式,不仅是提供推理API服务,还包括直接销售硬件系统。
如果 Groq 以 60% 的利润率向第三方运营商出售,那么总成本将与的H100 HGX 相当,预计售价为大约 635 万美元。
尽管 Groq 宣称其系统在能耗上具有优势,但从现有数据来看,这一点尚不明显。
即使在对 H100 服务器的极端假设下,包括 CPU 和所有 8 个 全速运行也只需 10 千瓦电力,这比 Groq 的 576 芯片服务器所需的 230 千瓦(每 8 芯片服务器约 3.2 千瓦)要高效得多。
Groq 声称自己在每瓦性能上具有优势,但根据现有的信息很难验证这一点。
需要注意的是,尽管 Groq 在 API 业务上目前面临亏损,并且需要通过超过 7.2倍的性能提升才能实现盈亏平衡,但他们已经规划了在未来几个季度通过一系列改进达成这一目标。
这些改进主要通过以下三个方向:
- 持续进行编译器的优化工作,以提升数据处理速度;
- 推出新的服务器设计,大幅减少除了芯片外的其他成本,如减少使用的 CPU 数量和内存大小;
- 部署更大规模的系统,通过增加处理流水线数量实现更高的数据批处理能力,这不仅可以提升性能,还能支持更大的 AI 模型。
虽然每项改进措施本身看似合理,但要实现 7 倍的性能提升无疑是一项巨大的挑战。
原文链接:
“AI+”科技战略规划实战营
第1讲:深度复盘华为发展五大阶段的战略历程启示录与DSTE实战体系!
第2讲:BLM模型与战略突破:下一个十年,商业的底层逻辑变了!如何战略性增长!
第3讲:为什么华为猛将如潮、执行有力?战略解码体系与战略领导力模型功不可没!
第4讲:华为如何“五看”市场?!一篇文章读懂市场洞察必须的产业思维+产品思维!
第5讲:为什么华为强调“价值驱动业务设计”?“商业画布”之父告诉你怎么用好“商业画布”!
第6讲:华为的业务设计为什么能够持续成功?任正非采用了哪种致胜的企业家战略?
第7讲:企业战略如何形成?华为的组织绩效管理三大原则是什么?
深度案例:任正非的企业家战略与华为战略管理
第8讲:人工智能的“狂飙”时代,如何设计“AI+”商业模式?
第9讲:AI视频生成模型集体“狂飙”,创作边际成本会降到零?生成式AI“数据智能”如何演进?
第10讲:如何打败“系统思考缺乏症”,设计企业战略的系统之美?!