GPT-4引领:AI新浪潮的转折点

   日期:2024-12-26    作者:danquan1688 移动:http://ljhr2012.riyuangf.com/mobile/quote/27477.html

OneFlow编译

GPT-4引领:AI新浪潮的转折点

**翻译|贾川、杨婷、徐佳渝

编辑|王金许**

一朝成名天下知。ChatGPT/GPT-4相关的新闻接二连三刷屏朋友圈,如今,这些模型背后的公司OpenAI的知名度不亚于任何科技巨头。

不过,就在ChatGPT问世前,OpenAI在GPT-3发布后的两年多时间里陷入沉寂,甚至开始被人唱衰。实际上,OpenAI在这期间正在潜心打磨GPT-3.5。

在OneFlow去年3月发布的《
深度学习崛起十年:“开挂”的OpenAI革新者
》一文中,OpenAI联合创始人、首席科学家就介绍了那些现在业内人尽皆知的人类反馈的强化学习(RLHF)、AI对齐以及多模态等关键名词和基本思路。

只不过,那时业内似乎都在忙着比拼更大的模型参数,无暇顾及抑或并不在意OpenAI正在研究的工作,看过这个对话的人很少。

当然,即使看了他们的技术思路,相信他们能走通的人就更少了,能去真正实践的也只有他们自己。直到ChatGPT大获成功,同行也只好羡慕嫉妒拍自己大腿,并说上一句:不就是已有技术的组合。然后眼睁睁看着OpenAI一脚油门,甩出同行几条街。

作为GPT系列模型背后“组装者”和推动者
毫不夸张地说,没有Ilya Sutskever,就没有现在的ChatGPT以及GPT-4
。他正在改变世界。

更惊人的是
十年前,他已经改变过一次世界
。那个引发深度学习新一轮革命浪潮的AlexNet也与Ilya有关,他是AlexNet的作者之一,后续随之而来的AlphaGo、GPT、CLIP、DALL-E和Codex都离不开他的贡献。

那么,从推动这一系列变革的科学家角度,他究竟如何看待当先ChatGPT、GPT-4模型的发展?他对AI的思考和坚定信念从何而来?OpenAI下一步研究方向是什么?他又如何看待AI对社会的影响

在近期与
英伟达CEO黄仁勋
(GTC大会)以及Eye on AI播客的主持人Craig S. Smith的两场对话中,Ilya对此进行了解答。

对话中的Ilya像是AI研究者中的苦行僧。不同于
Sam Altman

Greg Brockman
两位创始人在交谈中表现出的异常敏捷的表达能力,Ilya的语速相对平缓很多,但他的思考要比说出口的内容更深远。当你问他能否解决GPT模型一本正经地胡说八道的问题时,他说,“让我们拭目以待”,这个回答让你感觉毛骨悚然的同时还会相信这家伙真的能做到。

就在业内其他团队正在研究怎么研发类ChatGPT追赶甚至“弯道超车”OpenAI时,GPT-5或许已经在路上了。在这之前,最好看看Ilya怎么思考AI及其未来发展方向,或许会启发我们提出更好的、不一样的发展路径。

OneFlow以QA形式对上述两场对话进行了编译整理,对于问题以下不作具体区分。(Craig的播客经授权后由OneFlow编译,内容转载请联系OneFlow获得授权。播客:https://www.eye-on.ai/

1

AI界的“iPhone时刻”

Q:ChatGPT就是AI界的“iPhone时刻”,你是如何实现这一历史性转变的

A
最开始,我们也不清楚该如何开展整个项目,而且这个领域与现在的发展走向也完全不同。2016年左右开始创办OpenAI时,这一领域的研究者还很少,我们当时的同事大多来自Google/DeepMind,他们有从业经验,但思路相对而言比较狭窄,有所束缚。

那时我们有两个大的基础想法,它们的影响一直延续到今天。
第一个想法是通过压缩进行无监督学习。
现在看来这是理所应当,但在2016年,无监督学习是一个还没有被解决的问题,也没有任何科学家有相关想法。

Yann LeCun当时到处说这是一个技术上的瓶颈。压缩也不是人们经常会谈到的问题,但ChatGPT实际上确实压缩了训练数据,我们通过不断训练自回归生成模型实现了数据压缩。如果数据被压缩得足够好,就必须要提取其中存在的所有隐藏信息,这就是关键所在。

这也直接导致了我们研究情绪神经元。
OpenAI科学家Alec Radford
训练LSTM来预测亚马逊评论的下一个字符时发现,如果你预测下一个字符足够好,LSTM就会有一个与情绪对应的神经元。这就很好地展示了无监督学习的效果,也验证了下一个字符预测的想法。
这个发现对我们的影响很大。

但哪里能得到无监督学习的数据呢?无监督学习的难点不在于数据,更多关于为什么要这么做,以及意识到训练神经网络来预测下一个字符是值得追求和探索的。

然后Transformer出来后,我们立即发现这个模型就是我们想要的,于是做出了GPT-1。

第二个想法就是强化学习。
我有一个很强的信念是“越大越好”,OpenAI的目标是找到扩展的正确路径。我们完成的第一个真正的大型项目是实时战略游戏DOTA 2。当时我们训练了一个强化学习的Agent来与自己对抗,目标是达到人类玩家的水平。

从DOTA的强化学习转变为人类反馈的强化学习,再加上GPT技术基座,成就了今天的ChatGPT。

Q:有人认为,ChatGPT只是一个大型语言模型,但在我看来,那背后有自己的复杂系统。能否介绍一下你们是如何通过强化学习进行
精调的
?ChatGPT背后是否有多种系统进行支撑


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号