分享好友 最新动态首页 最新动态分类 切换频道
26岁OpenAI举报人疑自杀!死前揭ChatGPT训练黑幕
2024-12-27 00:13

编者按:本文来自微信公众号 新智元(ID:AI_era),编辑:Aeneas 好困,创业邦经授权转载。

就在刚刚,消息曝出:OpenAI吹哨人,在家中离世。

曾在OpenAI工作四年,指控公司侵犯版权的Suchir Balaji,上月底在旧金山公寓中被发现死亡,年仅26岁。

旧金山警方表示,11月26日下午1时许,他们接到了一通要求查看Balaji安危的电话,但在到达后却发现他已经死亡。

这位吹哨人手中掌握的信息,原本将在针对OpenAI的诉讼中发挥关键作用。

如今,他却意外去世。

法医办公室认定,死因为自杀。警方也表示,「并未发现任何他杀证据」。

他的X上的最后一篇帖子,正是介绍自己对于OpenAI训练ChatGPT是否违反法律的思考和分析。

他也强调,希望这不要被解读为对ChatGPT或OpenAI本身的批评。

如今,在这篇帖子下,网友们纷纷发出悼念。

Suchir Blaji的朋友也表示,他人十分聪明,绝不像是会自杀的人。

Suchir Balaji曾参与OpenAI参与开发ChatGPT及底层模型的过程。

今年10月发表的一篇博文中他指出,公司在使用新闻和其他网站的信息训练其AI模型时,违反了「合理使用」原则。

博文地址:https://suchir.net/fair_use.html

然而,就在公开指控OpenAI违反美国版权法三个月之后,他就离世了。

为什么11月底的事情12月中旬才爆出来,网友们也表示质疑

其实,自从2022年底公开发布ChatGPT以来,OpenAI就面临着来自作家、程序员、记者等群体的一波又一波的诉讼潮。

他们认为,OpenAI非法使用自己受版权保护的材料来训练AI模型,公司估值攀升至1500亿美元以上的果实,却自己独享。

为此,《水星新闻报》《纽约时报》等多家报社,都在过去一年内对OpenAI提起诉讼。

今年10月23日,《纽约时报》发表了对Balaji的采访,他指出,OpenAI正在损害那些数据被利用的企业和创业者的利益。

「如果你认同我的观点,你就必须离开公司。这对整个互联网生态系统而言,都不是一个可持续的模式。」

Balaji在加州长大,十几岁时,他发现了一则关于DeepMind让AI自己玩Atari游戏的报道,心生向往。

高中毕业后的gap year,Balaji开始探索DeepMind背后的关键理念——神经网络数学系统。

Balaji本科就读于UC伯克利,主修计算机科学。在大学期间,他相信AI能为社会带来巨大益处,比如治愈疾病、延缓衰老。在他看来,我们可以创造某种科学家,来解决这类问题。

2020年,他和一批伯克利的毕业生们,共同前往OpenAI工作。

然而,在加入OpenAI、担任两年研究员后,他的想法开始转变。

在那里,他被分配的任务是为GPT-4收集互联网数据,这个神经网络花了几个月的时间,分析了互联网上几乎所有英语文本。

Balaji认为,这种做法违反了美国关于已发表作品的「合理使用」法律。今年10月底,他在个人网站上发布一篇文章,论证了这一观点。

目前没有任何已知因素,能够支持「ChatGPT对其训练数据的使用是合理的」。但需要说明的是,这些论点并非仅针对ChatGPT,类似的论述也适用于各个领域的众多生成式AI产品。

根据《纽约时报》律师的说法,Balaji掌握着「独特的相关文件」,在纽约时报对OpenAI的诉讼中,这些文件极为有利。

在准备取证前,纽约时报提到,至少12人(多为OpenAI的前任或现任员工)掌握着对案件有帮助的材料。

在过去一年中,OpenAI的估值已经翻了一倍,但新闻机构认为,该公司和微软抄袭和盗用了自己的文章,严重损害了它们的商业模式。

诉讼书指出——

微软和OpenAI轻易地攫取了记者、新闻工作者、评论员、编辑等为地方报纸作出贡献的劳动成果——完全无视这些为地方社区提供新闻的创作者和发布者的付出,更遑论他们的法律权利。

而对于这些指控,OpenAI予以坚决否认。他们强调,大模型训练中的所有工作,都符合「合理使用」法律规定。

为什么OpenAI违反了「合理使用」法?Balaji在长篇博文中,列出了详尽的分析。

他引用了1976年《版权法》第107条中对「合理使用」的定义。

是否符合「合理使用」,应考虑的因素包括以下四条:

(1)使用的目的和性质,包括该使用是否具有商业性质或是否用于非营利教育目的;(2)受版权保护作品的性质;(3)所使用部分相对于整个受版权保护作品的数量和实质性;(4)该使用对受版权保护作品的潜在市场或价值的影响。

按(4)、(1)、(2)、(3)的顺序,Balaji做了详细论证。

由于ChatGPT训练集对市场价值的影响,会因数据来源而异,而且由于其训练集并未公开,这个问题无法直接回答。

不过,某些研究可以量化这个结果。

《生成式AI对在线知识社区的影响》发现,在ChatGPT发布后,Stack Overflow的访问量下降了约12%。

此外,ChatGPT发布后每个主题的提问数量也有所下降。

提问者的平均账户年龄也在ChatGPT发布后呈上升趋势,这表明新成员要么没有加入,要么正在离开社区。

而Stack Overflow,显然不是唯一受ChatGPT影响的网站。例如,作业帮助网站Chegg在报告ChatGPT影响其增长后,股价下跌了40%。

当然,OpenAI和谷歌这样的模型开发商,也和Stack Overflow、Reddit、美联社、News Corp等签订了数据许可协议。

但签署了协议,数据就是「合理使用」吗?

总之,鉴于数据许可市场的存在,在未获得类似许可协议的情况下使用受版权保护的数据进行训练也构成了市场利益损害,因为这剥夺了版权持有人的合法收入来源。

书评家可以在评论中引用某书的片段,虽然这可能会损害后者的市场价值,但仍被视为合理使用,这是因为,二者没有替代或竞争关系。

这种替代使用和非替代使用之间的区别,源自1841年的「Folsom诉Marsh案」,这是一个确立合理使用原则的里程碑案例。

问题来了——作为一款商业产品,ChatGPT是否与用于训练它的数据具有相似的用途?

显然,在这个过程中,ChatGPT创造了与原始内容形成直接竞争的替代品。

比如,如果想知道「为什么在浮点数运算中,0.1+0. 2=0.30000000000000004?」这种编程问题,就可以直接向ChatGPT(左)提问,而不必再去搜索Stack Overflow(右)。

这一因素,是各项标准中影响力最小的一个,因此不作详细讨论。

考虑这一因素,可以有两种解释——

(1)模型的训练输入包含了受版权保护数据的完整副本,因此「使用量」实际上是整个受版权保护作品。这不利于「合理使用」。

(2)模型的输出内容几乎不会直接复制受版权保护的数据,因此「使用量」可以视为接近零。这种观点支持「合理使用」。

哪一种更符合现实?

为此,作者采用信息论,对此进行了量化分析。

在信息论中,最基本的计量单位是比特,代表着一个是/否的二元选择。

在一个分布中,平均信息量称为熵,同样以比特为单位(根据香农的研究,英文文本的熵值约在每个字符0.6至1.3比特之间)。

两个分布之间共享的信息量称为互信息(MI),其计算公式为:

在公式中,X和Y表示随机变量,H(X)是X的边际熵,H(X|Y)是在已知Y的情况下X的条件熵。如果将X视为原创作品,Y视为其衍生作品,那么互信息I(X;Y)就表示创作Y时借鉴了多少X中的信息。

对于因素3,重点关注的是互信息相对于原创作品信息量的比例,即相对互信息(RMI),定义如下:

此概念可用简单的视觉模型来理解:如果用红色圆圈代表原创作品中的信息,蓝色圆圈代表新作品中的信息,那么相对互信息就是两个圆圈重叠部分与红色圆圈面积的比值:

在生成式AI领域中,重点关注相对互信息(RMI),其中X表示潜在的训练数据集,Y表示模型生成的输出集合,而f则代表模型的训练过程以及从生成模型中进行采样的过程:

在实践中,计算H(Y|X)——即已训练生成模型输出的信息熵——相对容易。但要估算H(Y)——即在所有可能训练数据集上的模型输出总体信息熵——则极其困难。

至于H(X)——训练数据分布的真实信息熵——虽然计算困难但仍是可行的。

可以作出一个合理假设:H(Y) ≥ H(X)。

这个假设是有依据的,因为完美拟合训练分布的生成模型会呈现H(Y) = H(X)的特征,同样,过度拟合并且记忆训练数据的模型也是如此。

而对于欠拟合的生成模型,可能会引入额外的噪声,导致H(Y) > H(X)。在H(Y) ≥ H(X)的条件下,就可以为RMI确定一个下限:

这个下限背后的基本原理是:输出的信息熵越低,就越可能包含来自模型训练数据的信息。

在极端情况下,就会导致「内容重复输出」的问题,即模型会以确定性的方式,输出训练数据中的片段。

即使在非确定性的输出中,训练数据的信息仍可能以某种程度被使用——这些信息可能被分散融入到整个输出内容中,而不是简单的直接复制。

从理论上讲,模型输出的信息熵并不需要低于原始数据的真实信息熵,但在实际开发中,模型开发者往往倾向于选择让输出熵更低的训练和部署方法。

这主要是因为,熵值高的输出在采样过程中会包含更多随机性,容易导致内容缺乏连贯性或产生虚假信息,也就是「幻觉」。

如何降低信息熵?

在模型训练过程中,让模型多次接触同一数据样本是一种很常见的做法。

但如果重复次数过多,模型就会完整地记下这些数据样本,并在输出时简单地重复这些内容。

举个例子,我们先在莎士比亚作品集的部分内容上对GPT-2进行微调。然后用不同颜色来区分每个token的信息熵值,其中红色表示较高的随机性,绿色表示较高的确定性。

当仅用数据样本训练一次时,模型对「First Citizen」(第一公民)这一提示的补全内容虽然不够连贯,但显示出高熵值和创新性。

然而,在重复训练十次后,模型完全记住了《科利奥兰纳斯》剧本的开头部分,并在接收到提示后机械地重复这些内容。

在重复训练五次时,模型表现出一种介于简单重复和创造性生成之间的状态——输出内容中既有新创作的部分,也有记忆的内容。

假设英语文本的真实熵值约为每字符0.95比特,那么这些输出中就有大约

的内容是来自训练数据集。

ChatGPT产生低熵输出的主要原因在于,它采用了强化学习进行后训练——特别是基于人类反馈的强化学习(RLHF)。

RLHF倾向于降低模型的熵值,因为其主要目标之一是降低「幻觉」的发生率,而这种「幻觉」通常源于采样过程中的随机性。

理论上,一个熵值为零的模型可以完全避免「幻觉」,但这样的模型实际上就变成了训练数据集的简单检索工具,而非真正的生成模型。

下面是几个向ChatGPT提出查询的示例,以及对应输出token的熵值:

根据

,可以估计这些输出中约有73%到94%的内容,对应于训练数据集中的信息。

如果考虑RLHF的影响(导致

),这个估计值可能偏高,但熵值与训练数据使用量之间的相关性依然十分明显。

例如,即使不了解ChatGPT的训练数据集,我们也会发现它讲的笑话全是靠记忆,因为这些内容几乎都是以确定性方式生成的。

这种分析方法虽然比较粗略,但它揭示了训练数据集中的版权内容如何影响模型输出。

但更重要的是,这种影响十分深远。即使是对因素(3)做出更宽松的解释,也难以支持「合理使用」的主张。

最终,Suchir Balaji得出结论:从这4个因素来看,它们几乎都不支持「ChatGPT在合理使用训练数据」。

10月23日,Balaji发出这篇博客。

一个月后,他死于自己的公寓。

参考资料:

https://www.mercurynews.com/2024/12/13/openai-whistleblower-found-dead-in-san-francisco-apartment/?noamp=mobile

https://suchir.net/fair_use.html

最新文章
超好用:免费好用的图床
经常写文章的小伙伴可能会头疼,图片需要一张一张的上传,费劲也耗时,今天就推荐几款超简单的图床工具。图床就是一个在网络上存储图片的地方,目的是为了节省本地服务器空间,加快图片打开速度。话不多说,进入正题。永久存储免注册,图片
探秘系统设计界面神器,打造精美交互界面
在当今数字化浪潮汹涌澎湃的时代,系统设计界面的质量直接关乎用户与软件、平台交互的顺畅性与愉悦感。一款出色的系统设计界面软件,犹如一位幕后的魔法大师,能够将设计师的创意灵感精准地转化为直观、实用且富有魅力的用户界面。无论是打
魔音工坊的文案制作过程融合了先进的人工智能技术和大数据分析,为客户提供了一种全新的文案创作体验。以下是具体步骤和优化后的
在数字化时代人工智能的应用已经渗透到各行各业文案创作也不例外。魔音工坊作为一家专注于音频制作和文案生成的企业凭借其特别的技术,为广大创作者提供了高效、便捷的文案生成解决方案。本文将深入探讨魔音工坊的文案制作过程,揭示其背后
淘宝店铺该应该如何补单才会迅速的提升排名?
五、成交额=客单价成交笔数,成交笔数=流量转化率,流量=直通车投入费用/平均点击费用六、利润=营业额利润率=客户价格成交笔数利润率=客户价格流量转换率利润率=客户价格转换率转换率开通费用/平均点击费用在综合排名中,店铺质量得分会影
重磅通报“正宗南通长牌怎么开挂”玩家曝光开挂详情-知乎
您好:正宗南通长牌这款游戏可以开挂,确实是有挂的,咨询加微信【5722507】很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实
抖音直播的5种主流玩法
抖音直播的主流玩法有哪些,抖音是时下特别热门的营销平台,那么在直播方面有哪些主流玩法呢。一起来看看下面的介绍吧。1、 模式分析:兴趣电商+Tiktok选择联盟,即商家在选择联盟中选择高佣金产品,使用直播内容(如前文写的跑步)激发观
苹果手机最好用的浏览器【手机最好用的浏览器 知乎】
有时候我们在手机上看视频或听音乐时,遇到好的在线资源想下载回来,这时就需要用到嗅探功能去找到资源的真实地址,再把它下载到手机里。带有这种功能的浏览器在安卓系统的手机里比比皆是,但苹果手机里却是凤毛麟角,不是功能不够好,就是
耐克300亿美元买来的教训:品牌没效?不,是你做品牌的方式失效了
前些天我去上海出差,见了我的好朋友苗庆显老师,苗老师最近金句频出,他说:"自从有了成熟的品牌理论,就很少诞生伟大品牌了"。正好,最近又有另一位好朋友王赛老师发了条消息,他说呼吁了多年将"Marketing"译为"营销"是一个失误,目前学
白板标注器
直播讲课画笔标注工具白板标注器直播讲课工具,占用空间小;网课标注工具,操作简单,界面简洁;线上会议重点标注,用途广泛,开启快速;主播都在用,赶紧下载吧! 51下载站提供白板标注器app官方版下载地址,有需要的用户可免费下载使用!
肠炎和直肠炎的区别是什么
肠炎和直肠炎的区别在于病变部位、病因、症状、治疗方法以及预后情况。1.病变部位肠炎指的是整个肠道出现炎症反应,包括小肠和大肠。而直肠炎仅涉及直肠末端部分。2.病因肠炎可能由病毒、细菌感染或食物不耐受引起,如轮状病毒感染、志贺菌
相关文章
推荐文章
发表评论
0评