智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
这场开诚布公的分享,既让我们窥得这家全球最大云计算巨头深厚的硬件基建功底,也让我们饱览了从CPU研发策略、先进封装、背面供电、AI芯片脉动阵列
大会期间,
亚马逊云科技的自研服务器CPU和AI芯片均已在其数据中心落地,被许多知名IT企业采用。连苹果都是其座上宾,在构建Apple Intelligence等AI服务的背后用到了Graviton3、Inferentia2、Trainium2等亚马逊云科技自研芯片。
据
在他看来,
在安全性上,亚马逊云科技还加密了Graviton4与Nitro之间的PCIe链路,做到更极致的全流程安全防护。
同时,Trainium2还引入了背面供电,把电源线挪到晶圆背面,以减少布线拥塞。
一是
二是Trainum2超级服务器。
在芯片设计上,
单芯片的性能强,在实际落地中未必管用。要支撑起业界最大的大模型训练和推理,必须能够提高大量芯片互连时的系统级算力利用率。
这就解释了亚马逊云科技力推自研AI服务器及集群的核心驱动力。
。
针对布线复杂问题,亚马逊云科技研制了一些特殊的光纤电缆、光纤插头,并针对超大规模集群打造了一种全新网络路由协议。
亚马逊云科技对光链路的可靠性做了很多优化,将失败降低到0.002以下。
也就是说,在面对超大规模集群组网时,集中式和分布式的传统路由协议都面临挑战。
面临次优选择时,则需要开辟一条新的道路。对此,亚马逊云科技研发了一种全新的混合式网络路由协议SIDR(Scalable Intent Driven Routing),通过将集中式和分布式控制的优势相结合,
作为在自研芯片落地上最成功的云计算大厂之一,亚马逊云科技的芯片设计经验、自研芯片对云业务的实际影响、迭代与创新方向一直备受关注。在接受智东西等媒体采访期间,Dave Brown也总结了亚马逊云科技自研芯片的一些关键优势,包括
规模大还意味着
还有完整的产品组合和可靠服务。