【9月26日科技前沿】 在近日召开的华为全联接大会2024上,华为与中国移动共同宣布了一项重大合作成果:双方携手推出针对智算中心的超大规模集群AI存储解决方案,旨在解决大模型训练过程中面临的存储瓶颈难题。本次合作由华为数据存储产品线副总裁谢强强与中国移动集团首席专家、研究院网络与IT技术研究所所长张昊共同主导,标志着两大科技巨头在AI基础设施建设领域迈出了关键步伐。
张昊在发言中强调,随着大模型技术的飞速演进,其规模与能力正以前所未有的速度扩张,模型参数数量已突破万亿甚至十万亿级别,从单一模态转向多元融合。在此背景下,国内外科技巨头纷纷加码投资,构建万卡乃至超万卡的集群智算中心,形成一股新基建浪潮。然而,面对如此庞大的计算需求,传统的存储系统显得捉襟见肘,特别是在处理海量非结构化数据时,暴露出高吞吐性能不足、多协议处理能力有限、数据管理低效等一系列问题。
针对上述挑战,华为与合作伙伴中国移动在哈尔滨万卡超大规模智算集群中,首次大规模采用了基于OceanStor AI存储系统的多协议融合存储方案。这套系统具备惊人的150PB有效存储容量,通过“并行客户端、高密度全闪存介质、自动化冷热数据分级、GSE全局以太网调度”等先进技术手段,显著增强了数据读写性能和管理效率,为大模型训练提供了强有力的支持。
值得一提的是,此次合作的成果已在实际场景中得到了验证。由中国移动承建的智算中心(哈尔滨),于本月初正式投入使用,成为国内运营商领域规模最大的单集群智算中心之一。该中心不仅在算力规模上创下纪录,还实现了国产化网络设备的最大规模应用,为千万亿级参数的超级大模型训练奠定了坚实的基础。
总之,华为与中移动的此次合作,不仅解决了智算中心在数据存储层面的核心痛点,更为我国AI基础设施建设和大模型技术研发开辟了崭新局面。未来,随着技术的不断进步和应用场景的持续拓宽,类似的跨领域协作将愈发紧密,共同推动中国乃至全球AI产业的蓬勃发展。