2024年12月4日,技术界迎来了一项新的里程碑:发布了其名为Genie 2的AI系统,实现了从一张静态图片到一个可交互的3D世界的转变。虽交互时间短暂,但其中的细节精细度与交互流畅性都达到了前所未有的水平。
现行构建数字宇宙的主要技术路线包括:追求视觉真实的Sora、注重实时交互的Genie 2,以及专攻空间准确性的World Labs。这些路线都具有一定的优势和暂时无法解决的挑战。
未来目标将在这三条路线中实现技术融合,使AI生成的游戏和数字世界更加成熟,有许多问题仍待解决。
Genie 2具体效果引来了广泛关注:由画面清晰、细节丰富的技术迭代当中,可以看到从一张平面图片到一个3D立体世界的能力。该技术使用了DeepMind的先进图像生成模型Imagen 3,并配合自回归潜在扩散模型来实现。
Genie 2区别于其他技术的点在于:其引入的可控制智能体。为了实现这一控制,引入了无分类器引导技术,提高了动作的可控性,使其能准确识别场景中的可控制对象。
与场景互动能力得益于另一个项目的经验:SIMA项目通过在视频数据集上的训练,使得系统能够区分动态和静态元素,并理解交互规则。
Genie 2在渲染方面接近物理光学的效果:具备处理直接光照、全局光照以及材质反射的能力,并且实现了相对真实的动态阴影。
场景记忆机制让其保持高度的一致性:这对于连续场景的记忆和维持是至关重要的,反映出需解决的技术难点。Genie 2的生成能力虽然有很大进步,但同时也面临着鲜明的挑战,如训练数据限制导致的失误。
如增加场景物理规则的突然改变等现象仍有改善空间。总体而言,虽然Genie 2在生成质量和交互深度上实现了跨越,但在场景的长期叙事连贯性和一致性方面,存在待改进的地方。特别是生成持续时间的限制,目前Genie只有10-20秒的连续场景。
在AI世界模型构建方面,三家技术路线共逐:他们分别强调不同的特点,包括视觉真实性、交互自然性和空间准确性。
Sora通过时空扩散模型处理空间和时间信息:这样的处理既保持了画面的高质量,也保持了时间上的连贯性,但交互能力和准确性不足。
谷歌的Genie 2则在这方面作出了调整:通过自回归模型和游戏数据训练,强化了游戏引擎中的物理规则认知以及实时响应的能力。
World Labs则提供了空间几何精确性的解决方案:通过类似点云技术和几何重建的方法来保证三维结构的稳定性。
构建数字宇宙是一个长远的课题:每条技术都在努力解决视觉真实性、交互自然性和空间准确性的核心挑战。
未来的3A级游戏突破可能来自于这些技术的融合:结合Sora的视觉质量、Genie 2的交互能力以及World Labs的空间准确性的混合系统。