分享好友 最新动态首页 最新动态分类 切换频道
“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?
2024-12-25 13:09

  许多大模型在处理早期数据时展现出的优异表现,实际上是受到了‘任务污染’的影响,回答问题全靠记,而非纯粹基于学习理解能力。

  ChatGPT发布一年多,已经在全世界累积了超过1.8亿用户。而随着越来越多的人们开始频繁使用它,近几个月关于GPT-4在“变笨”、“变懒”的说法不绝于耳。

  大家发现这个昔日大聪明在回答提问时逐渐失去了最初的理解力和准确性,时不时给出“驴唇不对马嘴”的答案,或是干脆摆烂、拒绝回答。

  也就是说,大模型在它们之前“见过”的任务上表现优秀,在新任务上则相对拉垮。这更像是一种检索的模拟智能方法,回答问题全靠记,而非纯粹基于学习理解能力。

  因此论文认为,许多大模型在处理早期数据时展现出的优异表现,实际上是受到了‘任务污染’的影响。

  我们知道,大语言模型之所以强大,是因为在各种零样本和少样本任务中表现出色,显示出处理复杂和多样化问题的灵活性。

  而‘任务污染’就是一种对零样本或少样本评估方法的污染,指在预训练数据中已包含了任务训练示例——你以为GPT初次回答就这么得心应手?No!其实它在训练过程中就已经“见过”这些数据了。

  评估的模型与数据集

  由于封闭模型不会公开训练数据,开放模型也仅提供了数据源,爬取网站去获取数据并非易事,所以想简单验证是困难的。

  基于以上样本,研究人员采用了四种方法来衡量大模型的任务污染范围。

  1. 训练数据检查:直接搜索训练数据以找到任务训练示例。

  发现经过微调的Llama模型Alpaca和Vicuna,在训练中加入少量任务示例后,对比原版Llama性能有所提升。

  2. 任务示例提取:从现有模型中提取任务示例。

  具体方法是通过提示词指令,让模型生成训练示例。由于在零样本或少样本评估中,模型本不应该接受任何任务示例训练,所以只要LLM能够根据提示生成训练示例,就是任务污染的证据。

  因为如果在开放式生成任务中出现这种精准匹配,那模型无异于具备了预知能力,能准确复现数据集中的具体措辞,表现可以说是“天秀”了,这就强烈暗示了模型在训练时已经学习过这些内容。

  在所有实验过后,论文给出如下关键结论:

  • 由于任务污染,闭源模型在零样本或少样本评估中的性能表现被夸大了,特别是那些经过人类反馈的强化学习(RLHF)或指令微调的模型。由于污染程度仍然未知,我们需要谨慎对待。
  • 在实验中,对于没有展示出污染可能性的分类任务,大模型在零样本和少样本设置里很少显示出相对多数基线在统计学意义上的显著性改进。
  • 随着时间推移,GPT-3系列模型在许多下游任务的零样本或少样本性能上的提升很可能是由于任务污染造成的。
  • 即使是开源的LLM,出于多种原因,检查训练数据的任务污染也可能是困难的。
  • 鼓励公开训练数据集,以便更容易诊断污染问题。

  GPT“变笨”不孤单,所有大模型殊途同归?

  读过论文后,许多网友也悲观地表示:降智没准儿是目前所有大模型的共同命运。

  而持续重新训练这些模型的成本很高,人们迟早会放弃这种效率低下的方法。就目前的LLM来说,很难构建可以在不严重干扰过去知识的情况下,连续适应新知识的机器学习模型。

  AI用AI的产出去自我训练,最终结果又会走向何方呢?如果不着手从根本上解决数据污染和持续学习能力的问题,未来的世界会和大模型一起变笨吗?

  本文作者:Jessica,本文来源:硅星人Pro,原文标题:《“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?》

  风险提示及免责条款

最新文章
租购合同范例
租购合同范例第一篇范文:合同编号:__________甲方(以下简称“出租方”):_____________________________乙方(以下简称“承租方”):_____________________________鉴于出租方拥有位于_____________________________的房屋(以下简称
百度推广关键词优化策略深度揭秘,S级效果秘籍大公开
深度解析百度推广关键词优化策略,揭示S级效果的秘密武器。本文详细阐述了关键词优化技巧,包括精准定位、合理分配预算、持续优化等,助力企业实现百度推广效果最大化。随着互联网的快速发展,搜索引擎营销(SEM)已经成为企业提升品牌知名
抖音私域引流微信话术SOP指南
在当今这个数字化营销盛行的时代,各大社交平台成为了商家和个人品牌推广的重要阵地。其中,抖音以其独特的短视频形式和庞大的用户基础,成为了引流的热门选择。然而,如何将抖音上的流量有效转化为微信私域流量,成为了许多营销者关注的焦
探索AI绘画的魅力:AI美女写真生成工具评测与教程
在这个数字化的时代,创造美的方式也在不断创新。大家有没有想象过,你可以轻松生成一张自己理想中的美女写真?无论是为了社交媒体的动态,还是个人创作的灵感,AI绘画工具正成为越来越多人的心头好。这篇文章将为你解开AI美女写真生成的魅
新手小白如何使用Wordpress无代码基础0-1建立网站
今天Russell给大家分享一下,没有任何代码基础的小白如何利用Wordpress建立自己的网站,能省几万块的建站费用,花到后期的广告上它不香吗?话不多说,上干货!!1.购买域名域名购买的平台有很多,比如像阿里云、GoDaddy、Namecheap、Google
谷歌承认 Authenticator 身份验证器未启用存在问题
据悉,安卓/iOS版Google Authenticator身份验证器应用近日发布4.0版本更新,引入了云同步备份功能。Mysk 安全专家发现并没有针对性的开启端到端的加密功能板块,谷歌随后作出回应。  而根据Mysk的安全研究人员报告称,跨设备同步Google A
十大良心卡牌手游有哪些 有趣的卡牌手游排行2023
想必屏幕前的懒人玩家一定都喜欢玩卡牌类游戏吧,卡牌游戏不用过多的上手操作,利用挂机自动战斗的方式就可以轻松体验,那么十大良心卡牌手游有哪些?今天小编就给大家推荐十个有趣的卡牌手游,这些卡牌游戏在市面上极具人气而且十分耐玩,
高性能组装电脑定制报价,打造专属游戏/办公神器!
高性能组装电脑定制报价,打造专属游戏/办公神器!在当今数字化时代,组装一台符合个人需求的电脑已成为许多科技爱好者的首选。这不仅因为组装电脑能根据个人偏好进行定制化配置,更因为它通常比同等性能的品牌机更具性价比。首先,让我们
关键词,在SEO中真的过时了吗?
在数字化营销的浪潮中,我曾无数次站在SEO的风口浪尖,见证了无数次的变革与迭代。每当新的算法出台,或是某个概念被炒得火热,总有人会问:“在SEO中,‘关键词’真的过时了吗?”这个问题,就像一把双刃剑,既承载着对过往经验的怀念,也
实时翻译技术的语言奇迹,展望2024年话筒前的未来
随着科技的飞速发展,语言不再是沟通的障碍,站在2023年的门槛上,我们不禁遐想,到了2024年,当话语从话筒中传出时,实时翻译技术能否实现语言的即时转化,为我们打开全新的沟通世界?本文将回顾相关背景、重要事件、影响及其在现代社会中
相关文章
推荐文章
发表评论
0评