分享好友 最新动态首页 最新动态分类 切换频道
OpenAI发布首款具有推理能力的模型o1,可“思考”后自我核实答案正确性
2024-12-26 15:20

OpenAI旗下首款具有推理能力的AI大语言模型加速袭来。

OpenAI发布首款具有推理能力的模型o1,可“思考”后自我核实答案正确性

两天前,尚有消息称代号为“草莓”的推理功能模型预计在两周内发布,9月12日周四,这款模型已经以“OpenAI o1”(英文字母O+阿拉伯数字1)的正式名称发布了。

OpenAI的研究负责人Jerry Tworek对媒体称,o1背后的训练方式与之前的模型有着根本不同。

首先,o1“使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练”,这个数据集中包含“推理数据”和专门为其量身定制的科学文献。

在优势方面,OpenAI称o1模型对于复杂的推理任务来说是个重大进步,代表了人工智能能力的新水平,而且模型“思考”的时间越长,在推理任务上的表现就越好,因为o1可以花更多时间来考虑一个复杂问题的所有部分,从而有效地进行事实核查。

,o1模型的推理能力大幅提升,在物理、化学和生物等学科的Challenging基准测试中表现与博士生(即专家型人才)相当。而且其数学和编程能力爆表,在一项国际奥数竞赛(IMO)的资格考试中正确率高达83%,GPT-4o的正确率只有13%,在Codeforces在线编程竞赛中的成绩也高达89百分位,即前头只有11%的人类选手比o1模型出色。

同时,o1模型的安全性得以提升,比之前模型更能遵守安全准则,并且更能抵抗产生有害内容。在用户试图绕过安全规则的“越狱测试”中,在最严格的标准下GPT-4o在百分之中仅得22分,o1预览版的分数却高达84。公司称其“没有促进超过现有资源已经可能实现的评估风险。”

公司称,适用人群包括“正在解决科学、编程、数学和类似领域复杂问题的人士”,这些增强的推理能力可能特别有用。o1模型擅长准确生成和调试复杂代码,迷你版是款速度更快、比预览版便宜80%的推理模型,在编程方面尤其高效,适用于需要推理但不需要广泛世界知识的应用程序:

“例如,医疗研究人员可以使用o1来注释细胞测序数据,物理学家可以使用o1来生成量子光学所需的复杂数学公式,各领域的开发人员可以使用o1来构建和执行多步骤工作流程。”

测试过该模型的汤森路透副总裁Pablo Arredondo还发现,在分析法律摘要和解决LSAT(法学院入学考试)的逻辑题等方面,o1模型比OpenAI之前的模型更好:“我们发现它可以处理更实质性、更多方面的分析,我们的自动化测试还表明,它在处理一系列简单任务时都有所进步。”

其他被提及的局限性包括:o1模型在很多领域的能力不如GPT-4o,在关于世界的事实知识方面表现不佳;有的用例下推理能力较慢,可能需要更长的时间来回答问题;目前o1只是一个纯文本模型,缺乏针对特定文档进行推理,或者从网络收集实时信息的能力。

此外,让AI模型玩井字棋(Tic-Tac-Toe)一直被认为是个业界难题,拥有推理能力的o1新模型也还是会在这个游戏中出错,即无法完全攻克技术难关。

OpenAI还在一篇技术论文中承认,其收到了一些“轶事反馈”,称o1预览版和迷你版比GPT-4o及其迷你版更容易产生“幻觉”,也就是AI仍在很自信地编造答案,而且o1很少会承认它不知道问题的答案。

知名科技媒体Techcrunch指出,OpenAI在o1模型相关的博文中点明,其决定不向用户展示这一新模型的原始“思维链”,而是选择在答案中给出思维链的总结摘要,目的是为了维持“竞争优势”,为了弥补可能的缺点,“我们努力教导模型在答案中重现思路链中的任何有用想法。”

OpenAI也承认在训练AI模型推理能力方面的竞争压力很大:

“OpenAI可能率先推出了o1。但假设竞争对手很快也会效仿并推出类似的模型,那么公司真正的考验将是让o1得到广泛应用。

OpenAI未来将不断推出o1模型的更新版本,目标是对推理时间长达数小时、数天甚至数周的o1模型进行实验,以进一步提高其推理能力。

除了模型更新之外,我们还希望给o1模型添加浏览网页、文件和图片上传等功能,让它对每个人都更有用。在o1系列之外,我们还计划继续开发和发布GPT系列中的模型。”

在o1正式发布前,曾有媒体称其最早可能在本周向有限数量的用户开放。而且OpenAI并不是唯一致力于开发具有推理能力AI模型的公司,Anthropic和谷歌也都宣称其先进的人工智能模型具有“推理”能力:

最新文章
2024年多人游戏精选:热门好玩的经典及新游下载推荐大全
本文目录:经典多人游戏新游推荐1、《王者荣耀》发布公司:腾讯发布时间:2015年11月26日游戏描述:国民MOBA手游大作,以其丰富的英雄角色、多样的游戏模式和激烈的竞技体验赢得了广大玩家的喜爱,多人模式下,玩家可以组建战队,与好友并
2024最新AI系统源码,ChatGPT商业运营网站源码,GPTs、TTS语音对话、多模态识图大模型、DALL-E3文生图
随着人工智能技术的持续进步,AI绘画已经发展成为一个日益成熟的领域。越来越多的人开始尝试使用AI绘画软件来创作艺术作品。尽管这些AI绘画软件对绘画领域产生了显著影响,但它们并不会完全取代画师。与传统手绘不同,AI
3大华为智驾龙头企业(2024/12/13)
  华为智驾龙头有哪些?据南方财富网概念查询工具数据显示,华为智驾龙头有:  光庭信息301221:华为智驾龙头,  从近五年ROE来看,公司近五年ROE均值为9.97%,过去五年ROE最低为2023年的-0.76%,最高为2020年的17.52%。  回顾近30
2024年巨量引擎AD广告到底怎么做?
2024年巨量引擎AD广告到底怎么做?小黄车、小风车,还有小雪花、小铃铛、小房子……抖音上巨量AD投放直播间的形式有很多,面对这么多的“小东西”,你是不是只看图标还可以区分,但是说到具体的功能是不是傻傻分不清?下面就来带大家了解下这
altstore
altstore官网,苹果手机直装第三方侧载签名工具,欧盟地区第三方App Store下载ios版AltStore是一个第三方应用商店,它允许用户在不越狱的情况下安装未经过App Store官方审核的应用程序。Delta模拟器是AltStore上的一款多合一游戏模拟器,由开
2020全球搜索引擎市场份额排行榜(全球搜索量排名)
最近青年科创编辑杰哥从寰球出名流量统计平台“Statcounter”挖掘到,寰球2020搜索引擎市场份额排行榜正式颁布,比照2019寰球搜索引擎排名略有变迁!依据杰哥对2020寰球搜索引擎市场份额占比检索数据发现:2020年寰球搜索市场份额排名第一的
ASO ASM SEO 和SEM 具体是什么区别
ASO是针对移动应用程序的优化策略。它旨在提高应用商店中应用的排名和可见性,以吸引更多的用户下载和使用应用。ASO的关键工作包括优化应用的标题、关键词、描述、图标和截图,以及获取用户的积极评价和评论。ASO旨在在应用商店中获得更高
AI美女写真生成工具测评:轻松打造你的虚拟女神!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 各位亲爱的宝子们,今天我们要聊的是一个超有意思的话题,那就是AI美女写真生成!随着科技的
2025独立站做什么产品比较好最好推荐
在跨境电商领域,选择一个合适的产品对于成功建立并运营一个成功的独立站至关重要。随着市场的不断变化和消费者需求的日益多样化,2025年的独立站应该聚焦于那些既符合最新趋势又能满足特定需求的产品。以下是一些建议,它们不仅具有创新性
Android开源项目及库汇总
bigappleui封装了世面上一些常用的UI组件,其中主要包括:1、gifview组件,可以显示支持显示gif图片的显示。2、lettersort组件,在类似显示通讯录时,右侧有字母排序,整个列表按字母排序。类似,微信的通讯录部分。3、pull2refresh组件,
相关文章
推荐文章
发表评论
0评