分享好友 最新动态首页 最新动态分类 切换频道
Adobe&MIT 新研究:AI 视频边生成边播放,首帧延迟 1.3 秒、生成速度 9.4 帧 / 秒
2024-12-26 20:41

AI 生成视频,边生成边实时播放,再不用等了!Adobe 与 MIT 联手推出自回归实时视频生成技术 ——CausVid

思路就像从下载整部电影到直接观看流媒体的转变,在模型生成首帧画面后,视频便可以即时播放,后续内容则动态生成并无缝衔接。

如果你用过视频生成模型,一定对漫长的等待时间记忆深刻,生成一段 10 秒的视频,往往需要等待好几分钟才可以开始观看。

研究团队表示,这一延迟的根本原因在于:传统视频生成模型普遍采用的双向注意力机制,每一帧都需要参考前后帧的信息。

这就像写故事时必须先构思好整个剧情的所有细节才能动笔,在完整视频生成完毕前,你看不到任何画面。

为此,他们提出了一种全新的解决方案,通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型

实验中,CausVid 基于自回归生成的特性,无需额外训练就能支持多种应用,生成速度和质量均显著超越现有方法。

研究团队还表示将很快开源基于开源模型的实现代码。

如前所述,研究团队通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型。

为了进一步提速实现实时视频生成,作者通过分布匹配蒸馏(DMD)将生成步骤从 50 步缩减到仅需 4 步。

DMD 是一种扩散模型蒸馏技术,将多步扩散模型转换为快速的单步生成器。DMD 此前已在图像生成中取得成功,Adobe Firefly 文生图的快速模式就是基于此技术。

本次研究团队将其创新性地应用到视频扩散模型中,实现了显著加速。

然而,自回归模型有一个核心难题 —— 误差累积

每一帧视频都基于之前的帧生成,早期生成的任何细微缺陷都会被放大,导致生成的视频逐渐偏离预期轨迹。

为了解决这一问题,团队提出了非对称蒸馏策略。具体来说:

引入一个拥有未来信息的双向教师模型,在蒸馏训练阶段指导自回归的单向学生模型。这种教师-学生结构允许模型在生成未来帧时具备更强的精确度。

使用双向教师模型生成的的噪声-数据配对来预训练单向学生模型,提升其后蒸馏训练过程的稳定性。

在训练过程中,针对不同时间点的视频帧施加不同强度的噪声,这一策略使模型能够在测试时基于干净的已生成帧对当前帧进行去噪。

通过这种创新性的非对称蒸馏方法,CausVid 显著减少了自回归模型的误差累积问题,并生成了更高质量的视频内容。

这种非对称蒸馏形式中,学生模型和教师模型使用了不同的架构,而这只有在 DMD 风格的蒸馏中才可行。其他方法,例如渐进式蒸馏(Progressive Distillation)或一致性模型(Consistency Distillation),都要求学生模型和教师模型使用相同的架构。

下面是自回归扩散视频模型的误差累积示例(左图)和 CausVid 结果(右图)对比:

实验中,CausVid 表现惊艳:

得益于单向注意力机制,CausVid 完全支持在大语言模型中广泛应用的 KV 缓存推理技术,从而显著提升了生成效率。结合滑动窗口机制,CausVid 突破了传统模型的长度限制。

尽管训练阶段仅接触过 10 秒的视频,CausVid 依然能够生成长达 30 秒甚至更长的视频,其生成速度和质量均显著超越现有方法。

基于自回归生成的特性,CausVid 无需额外训练就能支持多种应用:

最新文章
线上线下混合式程序设计类一流课程探索实践
0 引 言一流课程的建设是高校“双一流”建设中建设一流本科、做强一流专业、培养一流人才的立足点和抓手 [1]。一流课程是高质量的本科课程,如何建设好一流课程,将一流课程的各项要求和任务落到实处,让本科学生真正受益,为一流专业和学
附近seo免费咨询软件(附近seo免费咨询软件下载)
大家好,今天小编关注到一个比较有意思的话题,就是关于附近seo免费咨询软件的问题,于是小编就整理了6个相关介绍附近seo免费咨询软件的解答,让我们一起看看吧。SEO优化免费软件有哪些?最好的SEO排名优化工具?百中搜优化靠谱吗?seo优化
企业网站SEO优化指南(提升网站排名,吸引更多流量)
随着互联网的企业发展,越来越多的网站企业都开始意识到网站SEO优化的重要性。通过SEO优化,优引更可以提升企业网站在搜索引擎中的南提排名,从而吸引更多潜在客户,升网提升企业品牌知名度。站排但是名吸,对于很多初次接触SEO优化的多流
遇到淘宝低价乱价怎么做(揭秘关键控价步骤)
  最近,许多品牌方纷纷向我咨询,淘宝控价,作为维护市场秩序、保护品牌形象的关键一环,需综合运用电商平台投诉、电商规则举报、谈判交涉、溯源、店铺干扰处理及长期监控与打击等多种手段,确保价格稳定,防范恶意竞争,为消费者营造公
阿里通义实验室语音生成大模型CosyVoice升级2.0版本-智汇AI
阿里巴巴通义实验室语音团队宣布,其开源的语音生成大模型CosyVoice已升级至2.0版本,这一升级标志着语音生成技术在准确性、稳定性和自然体验方面的显著进步。CosyVoice2.0通过采用离线和流式一体化建模的语音生成大模型技术,实现了双向流
湄潭地区专业高效网站搭建全案指南
湄潭地区网站搭建全攻略,旨在构建专业、高效的网络平台。本文详细介绍了网站规划、设计、开发、推广等关键步骤,助您轻松搭建个性化、适应性强的网站,提升地区网络影响力。湄潭网站搭建的优势湄潭网站搭建步骤详解湄潭网站搭建注意事项盘
超逼真美女写真生成新变革:用AI工具轻松制作你的个性化影像
访问工具界面:首先在微信小程序中搜索“搜狐简单AI”,启动应用。这里的界面设计简洁明了,一目了然。选择模型:在主界面中,选择“美女写真生成”选项,进入模型选择阶段。你可以根据自己的需求选择超写实风格或梦幻风格。输入描述:在下
站内优化第二篇:XML 站点地图的全面解析
或者还有其他各种问题,所以我们今天就围绕站点地图展开去讲。因为我一直是用的WordPress,所以此篇文章所有的知识点都以WordPress的站点地图为例。下面是此篇文章的大纲 什么是 XML 站点地图 XML 站点地图的重要性 如何在 WordPress 中创
青岛计算机培训机构排名前十有哪些好
青岛比较好的计算机培训学校有北大青鸟、课工场、千锋it教育、老男孩it教育、达内it教育,这些机构比较正规,办学时间较长,在业内有一定知名度和口碑。为了方便大家了解更多优秀的计算机培训机构,下面小编把这些计算机培训机构全部整理出
相关文章
推荐文章
发表评论
0评