详细笔记:OpenAI 发布会上的关键信息(上)

   日期:2024-12-27    作者:m00nb 移动:http://ljhr2012.riyuangf.com/mobile/quote/74659.html

本文来自微信公众号:AI 破壳儿,原文标题:《详细笔记:OpenAI 发布会上的关键信息(上)》

 

OpenAI 正在进行一场为期 12 天的发布会“马拉松”,目前已经进行到第 7 天。

 

发布会的形式比较简单:每天在 YouTube 放出视频,主要由团队一线成员出镜介绍 OpenAI 的最新动态,并进行现场 Demo 演示。

 

 

发布会的内容既有针对企业和开发者的技术方案与付费模式,也有面向普通用户的新功能上线、还有过去“画的饼”逐步兑现... 信息繁杂,覆盖面广。

 

本篇文章是我们内部的观看笔记,也可以算作“会议纪要”,客观记录了每场发布会的关键信息。

 

如果你没时间观看视频,也可以把这篇文章作为平替。

 


✅ 重点一:o1 模型完整版发布。

几个月前,OpenAI 就发布了一个“会思考”的新版本模型,但是当时发的只是预览版(OpenAI o1 preview)。

 

这次发布会上,OpenAI 相当于是发布了这个模型的完整版,正式命名为 OpenAI o1。

 

跟 o1 preview 相比,本次发布的正式版本 o1 有以下提升:

 

1. 推理能力进一步增强:经过进一步的训练和优化,能够更好地理解和解决复杂问题,在数学、编程等领域表现出色。重大错误减少了 34%。

 

2. 响应速度提升:比 o1 preview 更快,能够更高效地理解问题并给出答案,快了越 50%。

 

3. 支持多模态输入:新发布的 o1 模型能够同时理解文本和图像信息,例如可以上传一张手写图表给 AI 来进行分析计算。

 

因此,本次发布的 o1 模型将正式取代 o1 preview。不过 o1 系列模型仍然只有付费用户能够使用。

 

需要注意的是,o1 模型在功能层面仍有一些短板,比如目前不支持网页浏览、文件上传等功能,后续需要进一步完善。

 

✅ 重点二:新增 ChatGPT Pro 付费计划,订阅费为 200 美金/月。

Pro 版本主要面向那些需要更强大计算能力的高级用户,例如需要进行科学研究、处理复杂数学问题或大量使用的用户。定价也远高于之前的付费计划。

 

虽然定价在原 Plus 版本的基础上翻了 10 倍,但是 Pro 用户也确实拥有特权,包括:

 

1. 模型用量无上限:Pro 用户可以无限次使用 OpenAI 的所有模型,包括 o1、GPT-4 和高级语音模式等。

 

2. 特供 o1 模型 Pro 模式:Pro 版本还提供了一个名为 o1 Pro 模式的特殊功能,该模式可以让 o1 模型使用更多的计算资源,在解决极具挑战性的问题时表现更出色、可靠性更高。

 

 

3. 未来的增值服务:OpenAI 后续计划为 Pro 用户提供更多增值服务,例如更长的上下文窗口(目前是 128K)、更快的响应速度等。不过这些更新尚未给出具体的时间表。


✅ 重点:“增强微调”(Reinforcement Fine-Tuning,简称 RFT) 能力。

这是一个面向开发者的能力更新:通过 RFT,开发者可以花更少的力气就能实现模型在复杂专业领域的能力增强。

 

RFT 的过程,简单来说,就是给模型一个问题,让它思考并给出答案。然后,根据答案的正确性对模型进行评分,并强化那些导致正确答案的推理路径。

 

与传统的微调手段相比,强化微调具有以下特点:

 

1. 强调使用“黄金数据集”:发布会上提到,开发者只需几十个样本就能让模型学习到新的推理方式。这暗示着 RFT 对数据质量的要求更高,而对数据量的需求可能相对较低。

 

2. 教授模型推理能力,而非简单模仿:强化微调是教导模型在特定领域进行推理和思考过程,使其能够更好地解决该领域的问题。

 

3. 更适用于复杂任务和专业领域:强化微调特别适用于需要深入专业知识的复杂任务,例如法律、金融、医疗等领域。

 

下图是一个罕见病研究方向的 RFT 训练结果:在 o1-mini(比 o1 更差的基础模型)上使用训练集进行微调后,最终的评分超过了 o1 模型。

 

 

OpenAI 也简单介绍了强化微调的原理和工作流程:

 

原理:利用强化学习算法,根据用户提供的评分机制,不断优化模型的输出,使其更符合用户的预期。

 

工作流程:

 

Step 1:准备数据集。

 

用户需要准备一个包含训练数据和验证数据的文件。 训练数据用于训练模型,验证数据用于评估模型的泛化能力,确保模型不会过拟合训练数据。

 

Step 2:定义评分器。

 

用户需要明确定义模型要完成的任务,并设计一个评分器,用于评估模型输出的质量。 评分器会根据模型输出与预期结果的匹配程度,给出 0 到 1 之间的分数,分数越高表示模型的表现越好。

 

Step 3:启动训练任务。

 

在 OpenAI 开发平台上选择“Reinforcement Fine-Tuning”选项,并上传数据集、评分器和模型参数。OpenAI 会使用用户提供的数据和评分器,利用强化学习算法对模型进行训练。 训练过程可能需要数小时到数天不等。

 

Step 4:评估模型性能。

 

训练完成后,用户可以通过 OpenAI 的评估面板查看模型的性能指标,例如准确率和评分。

 

强化微调(RFT)尚未开放给公众,但是感兴趣的用户可以申请加入 OpenAI 的强化微调研究计划。下面是申请链接:

 

https://openai.com/form/rft-research-program/


✅ 重点:Sora 正式开放使用,地址:sora.com。

 

需要注意的是,只有付费用户才能使用,免费用户还不行:

 

Plus 用户:每月 50 次视频生成次数,分辨率限制为 720p,视频长度限制为 5 秒。

 

Pro 用户:整体用量无上限,每月 500 次优先视频生成次数(之后仍可继续生成视频,但速度会变慢),可以生成 1080p 分辨率、时长 20 秒的视频,并且下载的视频中不会带有 Sora 水印。

 

除了最核心的文生视频功能之外,本次发布的 Sora 还有这些功能:

 

1. 图像扩展:用户可以上传一张图像,并使用文本提示引导 Sora 生成以该图像为基础的视频。

 

2. 视频扩展:Sora 可以将一段现有视频扩展为更长的视频,并根据用户的文本提示添加新的场景和元素。

 

3. 多种视频创意工具组件:

 

Remix(重新混合):可以让用户轻松修改已生成的视频;

 

Storyboard(故事板):可以让用户以更精细的方式控制视频的生成过程;

 

Loop(循环):可以让用户将生成的视频片段无缝循环播放;

 

Blend(混合):可以让用户将两个不同的视频场景融合在一起。


✅ 重点一:Canvas(画布)功能开放免费使用。

Canvas 功能之前只对 ChatGPT Plus 用户开放测试,现在 OpenAI 宣布将其全面开放给所有用户。无论是否订阅 ChatGPT Plus,都可以免费使用 Canvas。

 

 

✅ 重点二:Canvas 支持直接运行 Python 代码。

用户可以在 Canvas 中直接运行 Python 代码,并查看文本或图形输出结果。 这项功能为开发者提供了更便捷的代码编写和调试环境,也为 ChatGPT 的应用拓展了更多可能性。

 

 

✅ 重点三:Canvas 支持和自定义 GPTs 联动使用。

在创建或编辑自定义 GPT 时,可以在“功能”部分启用 Canvas。

 

启用后,你的自定义 GPT 将能够在适当的情况下自动创建 Canvas,无需用户手动操作。

 

在 OpenAI 展示的例子中,一个名为“圣诞老人助手”的 GPT 被设计用于帮助圣诞老人回复孩子们寄来的信件。 当用户上传孩子信件的图片时,该 GPT 会自动创建一个 Canvas,并在其中生成回复信件的初稿。

 

 


✅ 重点:ChatGPT 正式集成到 Apple Intelligence。

发布会当天,苹果发布了 iOS 18.2 更新,其中包含了 ChatGPT 与 Siri 的整合。 这意味着部分 iPhone用户(特定机型 & 地区)可以直接通过 Siri 使用 ChatGPT 的功能。

 

同时,iPad 和 Macbook 用户也可以通过 Apple Intelligence 来和 ChatGPT 进行交互。

 

ChatGPT 的加入,使用户可以通过 Siri 语音命令完成更复杂的任务:

 

1. 通过相机按键调用「视觉智能」:用户可以通过摄像头向 Siri 展示图像,并询问 ChatGPT 相关信息。 发布会上演示了如何现场让 AI 分析三位主持人的圣诞毛衣,并评选出最佳着装者。

 

2. 处理文本或文档:用户可以向 Siri 提供内容,并让 ChatGPT 对其进行编辑、润色、翻译、总结等操作。

 

3. 获取信息和知识: 用户可以通过 Siri 向 ChatGPT 提问各种问题,例如历史事件、科学知识、生活技巧等。

 

4. 创作内容: 用户可以使用 Siri 口述故事、诗歌、电子邮件等,并让 ChatGPT 帮助润色和完善。


✅ 重点一:高级语音模式支持视频通话和手机屏幕共享。

今天的内容主要聚焦于 ChatGPT 高级语音模式的更新以及一些有趣的功能演示。

 

ChatGPT 的高级语音模式加入了视频输入功能,使其能够“看到”用户和周围环境,并利用这些视觉信息来更好地理解用户的指令和问题。

 

在视频中,AI 可以识别用户的面部表情、肢体语言,以及周围环境中的物体和场景。

 

在演示过程中,OpenAI 展示了这些使用场景:

 

1. 手冲咖啡实时指导:在做手冲咖啡的过程中,与 ChatGPT 进行视频通话,AI 可以对制作过程进行实时指导。

 

 

2. 穿搭点评:用户可以跟 ChatGPT 视频,询问它对自己今天穿着打扮的评价。

 

3. 手机信息分析:ChatGPT 还可以通过屏幕共享功能,帮助用户分析邮件、消息如何回复。

 

 

✅ 重点二:推出“圣诞老人”虚拟角色,可以通过高级语音模式进行互动。

在圣诞期间使用实时语音功能,点击 ChatGPT App 右下角的蓝色雪花图标 ❄️,即可开始与“圣诞老人”视频或者语音通话。

 

有趣的是,这个虚拟角色的声音特点也很像圣诞老人,看上去像是一个从音色到对话技能都经过自定义,且支持视频和语音聊天的 GPT。

 

至此,OpenAI 发布会的前六天内容已全部整理完毕。

 

目前发布会进行到第 7 天,我们将在发布会完结后,为大家带来后半程的详细笔记。【本文完】


你可能还想读:

 

最全整理!OpenAI 官方分享的 10 款创新 AI 应用

 

AI 学习不烧钱,分享 4 个值得一学的免费精品 AI 课程

 

推荐 3 个国产 AI 助手,能像 OpenAI o1 一样「深度思考」

 

 


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号