在和 AI 研究者和工程师讨论职业规划时,他们很少将机器人学作为首选。我推测,许多技术人员可能会因为看到机器人企业过往糟糕的回报率,而对这个行业的前景持谨慎态度。如今,有很多更受资本青睐、更易获得投资的机器学习应用领域,比如 chatbots、GenAI、助理 agents、AI 搜索引擎、AI 教师、编程 copilot、推动科学发展以及重新定义计算机交互界面等。
机器学习在纯软件环境中部署起来更加容易,因为数字世界是可预见的。你可以把一些数据从一个地方移动到另一个地方,并确信它们会完整无损失地到达目的地。你可以通过网络对某台服务器发起一个 API 调用,并假设它就是行的。即便遇到失败,也是在预料之中的情况,因此你可以采取相应的处理措施。
然而,在机器人领域,机器人外界的所有信息都是未知的。传感器获取的数据,由于你的操作,都是未知的。你不知道你自己在何方,周围的环境如何,一旦发生接触会有什么后果,即使你按下了开关,灯泡是否真的亮了,或者你是否真的按过开关。甚至连分辨乘坐下降的电梯和被吊起的起重机这样简单的判断也是困难的,因为在这两种情况下,惯性测量单元 (IMU) 传感器的反应几乎是一样的。一丝不确定的因素,很快就会放大,最终你的机器人可能摔倒在地而拼命挣扎,因为会误以为还有机会保持平衡。
EVE 和 NEO 两款机器人产品|图片来源:1X 官网
随着我们的 AI 软件系统开始参与到现实世界的活动中,例如提供客户服务或者帮用户叫 Uber,它们会遭遇到目前机器人学领域所面临的相同工程难题:一个程序与混乱源头的交互越久,我们对于程序行为正确性的保证就越少。即使你没有在打造一个真正的机器人,你的代码库最终也会与现代机器人软件的架构非常相似。我花费了大量的时间来打造可扩展的数据加载器和日志记录系统,并且确保在记录数据时,我能够将它们全部按照时间上的因果关系重新排序,供 Transformer 处理。这些听起来是不是很熟悉?
类别
机器人面临的挑战
LLM面临的挑战
日志记录和搜索:如何存储、索引和查询大量自主收集的数据?
高效地对视频序列进行独立同分布 (i.i.d) 抽样以供给大量 GPU 是棘手的。Token 太多了。如何从大量的视频中提取较少的 Token?
在训练视频生成模型时遇到相同的存储、索引、I/O 问题。Token 不够。我们可以在哪里获得更多?
校准置信度:如何知道模型是否能够正确处理给定情况?
如何知道机器人是否会执行任务?
LLM 如何知道它是否能够对问题做出事实回应?
模拟和搜索:我们能否在实际采取行动之前了解(潜在的危险)后果?
模拟缺乏足够的保真度来准确建模许多真实世界现象。基于原始传感器数据(例如,图像)学习世界模型很难。
大语言模型不能足够好地进行归纳或演绎推理,以至于我们不能像对待 AlphaGo 那样,仅仅通过增加计算量和推理就能解答所有问题。
自我提升:如何从现实世界的互动中自我提升?
构建数据引擎
因为评估是模糊的,所以优化也是。
这些问题虽然困难重重,但还是有解决办法的。即便大多数 AI 企业和实验室不必操心执行器硬件、电磁干扰或机械臂快速移动的安全风险,但机器人技术与研究工程的能力对于未来所有软件的发展来说,都将是不可或缺的一部分,不只是那些用来控制机器人的软件。
如果你认同 LLM 背后的工程和基础设施挑战与机器人技术面临的挑战是一致的,那么我们应该预期,无实体的 AGI(生成式AI)和机器人 AGI 会在大致相同的时间发生。
硬件设施已经就绪,而且在过去的十年间发表的众多研究论文中,我们已经看到了所有必需的技术元素。
02
尽管许多 AI 研究者依旧认为,实现通用机器人技术还需数十年时间,但我们要记住,ChatGPT 就是突然之间冒出来的。我相信机器人技术也将经历类似的快速发展。
这样的变革一旦到来,整个计算领域都将经历翻天覆地的变化。我们可以把所有的物质世界想象成是一台巨大计算机的内存,而通用人形机器人则成为与现实世界进行交互的接口。想象一下,如果任何一个拿着笔记本电脑的孩子都能种下整片森林,或者建立一座工厂,或者在一夜之间清理干净旧金山的所有垃圾,这将是多酷的事情?
要实现机器人技术在全球范围内广泛应用,我们可以采取三种不同的策略。
第一种是纯软件方案,你负责打造一个能控制各类机器人的「超级大脑」,然后所有的机器人硬件制造商都会争先恐后地寻求接入你的大脑 API。如果你能开发出一个无人能敌的模型,那么你就能获得丰富的软件收益,并且获取到大量的数据。OpenAI 发布的 GPT-4 就是这种策略的一个佳例。但这种方法的缺点在于,硬件合作方可能不愿意分享他们的数据,他们的客户同样不愿意,这使得整个信息流通过程变得缓慢。
第二个策略是从一个具体的领域着手,将硬件和软件垂直整合起来,然后逐步扩展。比如制造能自动割草的机器人、自动化的叉车,或者在工作站里拣选包裹的机器手臂。这种策略的优势在于,大多数机器人公司都是通过这种方式来提供价值的,但缺点在于,他们往往难以跳出自己的专业领域,走向全面的通用化。
最后一个策略是采用通用的硬件和软件来应对各种通用的使用场景。这种方法的难点在于,目前还没人能够成功实现,但如果做到了,市场潜力将是无穷无尽的。像 1X、Figure 和特斯拉这样的企业,就是选择了这条道路。
大语言模型公司,比如 OpenAI、Anthropic 和 Google,会在一个大型模型(如 GPT-4 基础版)上投入巨额计算资源进行一次训练,训练完成后,再对这个模型进行后续的处理,使其能够执行助手任务或理解图像 Token 等其他功能。随着这些基础模型的训练成本呈指数级增长,所有的研究者(无论你身处哪个机构)都将面临同样的工程挑战:仅有的资源只够训练一次最大的模型。所有后续的训练能力都必须基于这个基础模型,而且因为很难提前预知具体的下游任务会是什么样子,你必须让这个基础模型准备好应对所有可能的任务。
换句话说,你的基础模型的训练目标应该是为了完整地生成数据模型,如自回归的下一个 Token 预测器(比如 GPT)或者扩散过程(比如 Sora 这样的视频生成模型),或者两者的结合。如果你将宝贵的基础模型预算投入到条件密度建模问题上,比如「从视频中预测所有机器人的行为」,那么这个模型可能并不适合你未来可能关心的许多其他任务。随着基础模型的成本不断上升,这一点正成为现实。
虽然我们目前正身处人 AI 的淘金热潮,但如何将价值 1000 万美元的 GPU 成本转化为价值超过 100 万美元的额外利润,这一点仍不明确(除了像挖矿这类特殊行业)。这正是我目前主要在研究的问题。
在过去两年里,任何一家筹集了 1000 万到 1 亿美元资金,打算从零开始打造自家的大型神经网络的初创企业,最终都会面临巨额的资本支出——而这些资源在当今的人工智能初创企业中几乎是触手可及的。我并不是说,为了实现通用人工智能(AGI)而大胆扩展模型不是一个好策略;我只是觉得,最有可能成功的是那些拥有最低计算成本的企业。如果你是一家在高成本的资本环境中扩大模型规模的初创公司,你必须对自己的 scaling laws 和相关性能指标保持高统一。
许多初创公司都希望模仿谷歌通过 Rankbrain 将数十亿的研发投资转化为数倍的回报,但他们也忽视了这需要先建立谷歌搜索引擎这一基础。因此,我认为,绝大多数成功的初创公司将是那些能够灵活驾驭开源模型权重的公司。
我预测在未来几个月内,当前一代自动驾驶汽车公司将会有很多人离职。同时,现在是创办一家全新自动驾驶汽车公司的最佳时机。
很多 Hacker News 的评论者对我在两年前的博客文章中提到的 FAANG 公司的薪酬数字持怀疑态度。自从 ChatGPT 火爆以及 OpenAI、DeepMind、Anthropic 等公司展开激烈的人才争夺战以来,这些薪酬数字变得更加离谱。我曾与一些博士生交谈,他们竟然要求七位数的年薪。这让我想起了 2016 年,那时 John Schulman 在 OpenAI 的 27.5 万美元年薪在我看来已经是个天文数字。
https://mp.weixin.qq.com/s/SeDrBQ-mq_zvnO_lsfC1yw