GPT-4引领：AI新浪潮的转折点

日期：2024-12-26 作者：danquan1688 移动：http://ljhr2012.riyuangf.com/mobile/quote/27477.html

OneFlow编译

GPT-4引领：AI新浪潮的转折点

**翻译｜贾川、杨婷、徐佳渝

编辑｜王金许**

一朝成名天下知。ChatGPT/GPT-4相关的新闻接二连三刷屏朋友圈，如今，这些模型背后的公司OpenAI的知名度不亚于任何科技巨头。

不过，就在ChatGPT问世前，OpenAI在GPT-3发布后的两年多时间里陷入沉寂，甚至开始被人唱衰。实际上，OpenAI在这期间正在潜心打磨GPT-3.5。

在OneFlow去年3月发布的《
深度学习崛起十年：“开挂”的OpenAI革新者
》一文中，OpenAI联合创始人、首席科学家就介绍了那些现在业内人尽皆知的人类反馈的强化学习（RLHF）、AI对齐以及多模态等关键名词和基本思路。

只不过，那时业内似乎都在忙着比拼更大的模型参数，无暇顾及抑或并不在意OpenAI正在研究的工作，看过这个对话的人很少。

当然，即使看了他们的技术思路，相信他们能走通的人就更少了，能去真正实践的也只有他们自己。直到ChatGPT大获成功，同行也只好羡慕嫉妒拍自己大腿，并说上一句：不就是已有技术的组合。然后眼睁睁看着OpenAI一脚油门，甩出同行几条街。

作为GPT系列模型背后“组装者”和推动者，
毫不夸张地说，没有Ilya Sutskever，就没有现在的ChatGPT以及GPT-4
。他正在改变世界。

更惊人的是，
十年前，他已经改变过一次世界
。那个引发深度学习新一轮革命浪潮的AlexNet也与Ilya有关，他是AlexNet的作者之一，后续随之而来的AlphaGo、GPT、CLIP、DALL-E和Codex都离不开他的贡献。

那么，从推动这一系列变革的科学家角度，他究竟如何看待当先ChatGPT、GPT-4模型的发展？他对AI的思考和坚定信念从何而来？OpenAI下一步研究方向是什么？他又如何看待AI对社会的影响？

在近期与
英伟达CEO黄仁勋
（GTC大会）以及Eye on AI播客的主持人Craig S. Smith的两场对话中，Ilya对此进行了解答。

对话中的Ilya像是AI研究者中的苦行僧。不同于
Sam Altman
和
Greg Brockman
两位创始人在交谈中表现出的异常敏捷的表达能力，Ilya的语速相对平缓很多，但他的思考要比说出口的内容更深远。当你问他能否解决GPT模型一本正经地胡说八道的问题时，他说，“让我们拭目以待”，这个回答让你感觉毛骨悚然的同时还会相信这家伙真的能做到。

就在业内其他团队正在研究怎么研发类ChatGPT追赶甚至“弯道超车”OpenAI时，GPT-5或许已经在路上了。在这之前，最好看看Ilya怎么思考AI及其未来发展方向，或许会启发我们提出更好的、不一样的发展路径。

OneFlow以QA形式对上述两场对话进行了编译整理，对于问题以下不作具体区分。（Craig的播客经授权后由OneFlow编译，内容转载请联系OneFlow获得授权。播客：https://www.eye-on.ai/）

1

AI界的“iPhone时刻”

Q：ChatGPT就是AI界的“iPhone时刻”，你是如何实现这一历史性转变的？

A：
最开始，我们也不清楚该如何开展整个项目，而且这个领域与现在的发展走向也完全不同。2016年左右开始创办OpenAI时，这一领域的研究者还很少，我们当时的同事大多来自Google/DeepMind，他们有从业经验，但思路相对而言比较狭窄，有所束缚。

那时我们有两个大的基础想法，它们的影响一直延续到今天。
第一个想法是通过压缩进行无监督学习。
现在看来这是理所应当，但在2016年，无监督学习是一个还没有被解决的问题，也没有任何科学家有相关想法。

Yann LeCun当时到处说这是一个技术上的瓶颈。压缩也不是人们经常会谈到的问题，但ChatGPT实际上确实压缩了训练数据，我们通过不断训练自回归生成模型实现了数据压缩。如果数据被压缩得足够好，就必须要提取其中存在的所有隐藏信息，这就是关键所在。

这也直接导致了我们研究情绪神经元。
OpenAI科学家Alec Radford
训练LSTM来预测亚马逊评论的下一个字符时发现，如果你预测下一个字符足够好，LSTM就会有一个与情绪对应的神经元。这就很好地展示了无监督学习的效果，也验证了下一个字符预测的想法。
这个发现对我们的影响很大。

但哪里能得到无监督学习的数据呢？无监督学习的难点不在于数据，更多关于为什么要这么做，以及意识到训练神经网络来预测下一个字符是值得追求和探索的。

然后Transformer出来后，我们立即发现这个模型就是我们想要的，于是做出了GPT-1。

第二个想法就是强化学习。
我有一个很强的信念是“越大越好”，OpenAI的目标是找到扩展的正确路径。我们完成的第一个真正的大型项目是实时战略游戏DOTA 2。当时我们训练了一个强化学习的Agent来与自己对抗，目标是达到人类玩家的水平。

从DOTA的强化学习转变为人类反馈的强化学习，再加上GPT技术基座，成就了今天的ChatGPT。

Q：有人认为，ChatGPT只是一个大型语言模型，但在我看来，那背后有自己的复杂系统。能否介绍一下你们是如何通过强化学习进行
精调的
？ChatGPT背后是否有多种系统进行支撑？

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行