GTC 2024 大会China AI Day线上专场,是 NVIDIA 为国内 AI 开发者、技术领袖和业务决策人举办的中文演讲系列,将于3 月 19 日上午 10:00举办。China AI Day 将以“大语言模型(LLM)”为主题,汇聚国内领先的云和互联网企业,和 NVIDIA 共同分享如何使用 NVIDIA 端到端的软硬件结合技术栈来释放云上新增长,并展示 LLM 各类工作负载的加速计算技术,致力于为企业和 AI 从业者提供 LLM 开发和应用的学习平台。
本线上专场分为四大主题:AI Infra for LLM、LLM 训练、LLM 推理及 LLM 应用,将深入探讨 LLM 性能的极致优化,覆盖架构、训练、推理、量化、AI 工作流 RAG 等多个维度,并为您详细呈现 LLM 在互联网核心应用、芯片设计等领域的案例。
扫码注册 GTC 2024 大会
关注 China AI Day 线上演讲
三大理由
让您绝不可错过此次盛会
☑ 了解和学习 LLM,掌握时代竞争力
AI 正成为像电力一样不可或缺的基础设施,基于 LLM 的智能助手、数智人、智驾、搜索推广等方兴未艾,AI 早已融入人类生活。各行各业都需要了解和学习 LLM 等 AI 技术,从而掌握时代脉搏。
☑ 揭秘 LLM,创造新增长
您将了解通过 LLM 结合云上生产力工具、互联网核心业务和生成式 AI 创新业务,避免“重复造轮子”从而释放创意和生产力,同时加速产品全生命周期的开发和营销通路,并创造用户需求新范式。
☑ AI 性能优化势在必行
您将解锁 NVIDIA 的软硬件结合技术栈如何实现可持续、可扩展的数据中心级性能优化,从基础设施到云的技术栈的一致性,让每单位算力物尽其用。
GTC 2024 大会 China AI Day
线上专场议程一览
更多演讲敬请期待
主题一:AI Infra for LLM
10:00 - 10:25
NVIDIA 面向大语言模型的全栈 AI 解决方案
会议代码:SE63215
演讲人:王淼,NVIDIA 解决方案架构与工程总监
主要内容:深入探讨如何创建为大语言模型 (LLM) 设计的稳固且高效的数据中心架构。我们将利用 NVIDIA LLM 训练框架、Transformer Engine 上的 FP8 训练以及多精度训练 (MPT) 的能力,揭开 NVIDIA 针对 LLM 的全栈软件和硬件整体流水线的神秘面纱。此外,我们还将讨论 NVIDIA 训练和推理解决方案的最佳实践,包括 NVIDIA TensorRT™、TensorRT-LLM、Triton™ 推理服务器等,所有这些都是 NVIDIA AI Enterprise 套件的 AI 组件。这些内容将让您全面了解如何在 NVIDIA 加速的基础设施中优化 LLM 性能。
10:25 - 10:50
NVIDIA LLM 全栈式方案使用和优化最佳实践
会议代码:SE63216
演讲人:周国峰,NVIDIA 技术研发经理
主要内容:介绍基于 NVIDIA LLM 训练、推理和部署全栈式解决方案的使用和优化的最佳实践。重点介绍 Megatron-Core、TensorRT-LLM 和 Triton 推理服务器。Megatron-Core 是 NVIDIA 加速 LLM 大规模训练库,开发者可以基于它构建自己的 LLM 训练框架;TensorRT-LLM 是 NVIDIA 加速 LLM 推理的解决方案,开发者利用 TensorRT-LLM 可以在 GPU 上轻松取得 SOTA LLM 推理性能;Triton 推理服务器是 NVIDIA 部署推理服务的解决方案,它可以极大地简化基于 LLM 服务的部署,还包括了调度层的性能优化。
10:50 - 11:15
TACO-LLM:突破自回归限制,实现高效序列维并行推理的大模型优化方案
会议代码:SE63221
演讲人:叶帆,腾讯云异构计算专家工程师,异构研发负责人
11:15 - 11:40
蚂蚁 AI 工程 LLM 实践分享
会议代码:SE63219
演讲人:张科,蚂蚁集团 AI Infra 部门负责人
主要内容:AI 工程一直是衔接基础硬件与算法创新的关键环节,其关键是解决上下游的效率问题,包括资源效率、系统效率、人的效率。蚂蚁 AI 工程团队一直致力于通过系统的智能化,解决整个系统的效率优化问题,全面覆盖了在离线训练推理引擎、在线服务、GPU 集群调度与虚拟化、工程智能等多个领域的效率提升。随着大模型时代的到来,对系统的效率又提出了更苛刻的要求。本次演讲将系统地介绍 AI 工程在大模型时代面临的挑战、基于 NVIDIA 技术栈的解法、以及工程效果等诸多方面。
主题二:LLM 训练
10:00 - 10:25
NVIDIA NeMo Framework 在大语言模型上的最佳性能实践
会议代码:SE63228
演讲人:
姚鑫,NVIDIA GPU 计算团队专家
刘宏斌,NVIDIA GPU 计算团队专家
主要内容:近一年来,大规模语言模型的模型规模和训练样本都在持续增加,这对训练框架的性能提出了较高的挑战。NVIDIA NeMo Framework 是目前最高效的大语言模型训练框架之一,它提供了许多的优化策略以适应不同的训练场景,且随着新技术、新硬件的出现,NeMo Framework 还在持续地开发集成新的优化策略,因此如何组合这些优化技术以实现最佳性能变得越来越关键,且有一定挑战性。在本次演讲中,我们会介绍 NeMo Framework 的主要模块,并以 LLaMa2-70B 为例逐步实现最佳性能,最后分享 NeMo Framework 上的最佳实践。
10:50 - 11:15
基于 NVIDIA Megatron Core 的 MoE LLM 实现和训练优化
会议代码:SE63222
演讲人:黄俊,阿里云资深算法专家
主要内容:以 ChatGPT 为代表的大语言模型是当下实现通用人工智能最有潜力的技术路线。大模型在展现出惊人效果的同时,其高昂的训练和推理成本,一直是个巨大的挑战。模型稀疏化能有效降低训练和推理过程中的计算和存储消耗。近期以 Mixtral 为代表的 MoE(多专家混合)大模型,证明了稀疏 MoE 技术路线能够大幅降低训练和推理计算量、提升推理速度,同时模型效果能达到甚至超过同等规模的稠密模型。本次报告主要介绍阿里云人工智能平台 PAI (Platform of AI) 和 NVIDIA Megatron 在大规模 MoE 训练方面的合作研究工作,基于 Megatron Core 框架,实现了 MoE 训练工具,验证了工具的稳定性和收敛性,并在下游任务上验证了 MoE 大模型训练的效果。基于 PAI-Megatron-Patch 模型转换库,PAI 将上述 MoE 模型训练工具集成到阿里云灵骏大模型产品,极大地降低了用户在云端构建和优化 AI 模型的技术门槛。
主题三:LLM 推理
10:00 - 10:25
针对大模型的免训练 N:M 结构化稀疏加速
会议代码:SE63220
演讲人:李运,腾讯科技高级算法研究员
主要内容:在本次演讲中,我们将介绍一种基于 NVIDIA Ampere 和 Hopper 架构的结构化稀疏新算法,用于加速大模型推理。考虑到传统的稀疏预训练方案需要大量的数据、硬件资源和较长的训练周期,不利于其在大模型场景中的应用。因此,针对实际的业务场景需求,我们提出了一种无需训练的方法,该方法仅需要少量的校准样本便可实现大模型的稀疏化加速,同时不损失模型效果。此外,我们还将介绍一种新的 LLM 参数评估标准和参数筛选策略,以及这种独特的 2:4 结构化稀疏加速在腾讯搜索引擎中的应用。基于所设计的 LLM 稀疏化算法和高效部署方案,可以实现 1.25X 的推理耗时加速和 44% 的显存节省。
10:25 - 10:50
美团 PyTorch 量化工具 - 设计哲学、核心特性及性能基准
会议代码:SE63223
演讲人:李庆源,美团资深技术专家
主要内容:随着云计算负载的持续增长,降低神经网络模型部署成本的需求变得日益迫切。模型量化作为一项关键的压缩技术,可以使模型运行更快、体积更小,并且更具成本效益。为此,我们开发了一款即插即用的量化工具包——美团 PyTorch 量化工具(MTPQ),该工具包旨在利用 NVIDIA 的 TensorRT 以及 TensorRT-LLM 生态,实现模型在 GPU 上极致的推理性能。我们将介绍这个工具包的设计理念和主要功能,并分享其在工业界广泛使用的视觉模型以及大语言模型上的性能基准测试结果。
主题四:LLM 应用
10:00 - 10:25
AI Native,生成商业新未来
会议代码:SE63217
演讲人:刘林,百度商业研发部总监,商业 AIGC 平台负责人
主要内容:基于大模型技术理解、生成、逻辑和记忆四大核心能力,百度营销全面重构商业生态,AI Native 全景应用落地,打造商业智能体,包括懂营销的生成式 AI 创意内容生产平台“擎舵”,用自然语言即可创建营销方案的 AI Native 营销平台“轻舸”,以及全面提升广告投放效率与效果的商业动力引擎“扬楫”。全新商业智能体通过 LLM 技术驱动,基于自然语言的界面,使其能够理解客户的意图,帮助商家更好地满足用户需求,同时利用生成式 AI 技术,实现从营销洞察到创意制作、广告投放到营销经营的全链路闭环,在底层的模型与架构层面,多项技术取得核心突破,打造业内领先水平。
10:25 - 10:50
大模型深度定制以及在芯片设计应用中的探索
会议代码:SE63218
演讲人:刘鸣杰,NVIDIA 研究科学家
主要内容:大模型深度定制在芯片设计应用中发挥重要作用。本演讲将介绍领域自适应技术,涵盖了定制分词器、领域自适应连续预训练、具有领域特定指令的条件转移学习和领域适应的检索技术。通过在工程助手、聊天机器人、EDA 脚本生成和 Bug 总结分析等方面进行领域自适应,我们展示了最佳模型在芯片设计应用中明显优于通用基础模型的效果。
10:50 - 11:15
基于吞吐优先的测试方法以提高各类 CUDA 工作负载的吞吐数值
会议代码:SE62274
演讲人:
董建兵,NVIDIA GPU 计算团队专家
赵新博,NVIDIA GPU 计算团队专家
主要内容:测试和比较不同硬件平台之间的性能是一项具有挑战性的任务,尤其是公平地比较 GPU 和 CPU 之间的性能。多数时候,都会选择以延迟为唯一的衡量标准来进行优化,但这种方式并不是对所有的场景都适用,因为某些应用场景追求的是在满足延迟限制要求的前提下,尽可能地提升应用的吞吐能力。尽管已经有许多测试吞吐的工具,例如 NVIDIA Triton 推理服务器,但如何高效地利用这些工具来分析和优化各类 GPU 工作负载仍然是一个难题。例如,如何确定并发程度、请求速率、在延迟约束的条件下提高吞吐、支持不同的 GPU 工作负载的并发方式(如多进程、单进程多流等)等软件、硬件组合。在本次演讲中,我们提出了一种吞吐优先的测试工具来解决上述问题。其可以充分利用每个平台的所有硬件资源,并且能够在延迟约束的条件下追求更高的吞吐数值。结合 Nsight System 和 Nsight Compute 分析工具,使用我们的测试方法来对 CUDA 应用负载进行测试分析,可以显著提升各类 CUDA 应用在 GPU 上的吞吐表现。在演讲的后半部分,我们将介绍几个案例研究,以说明我们是如何使用这种测试方法来优化信息检索、推荐系统和其他真实场景的性能。
扫码注册 GTC 2024 大会
关注 China AI Day 线上演讲
以上是本届 GTC 2024 大会 China AI Day 的部分推荐内容,欢迎扫描上方二维码或点击阅读原文注册 GTC 2024 大会,了解更多精彩纷呈的演讲,并请持续关注 China AI Day 系列预告!