详细笔记：OpenAI 发布会上的关键信息（上）

日期：2024-12-27 作者：m00nb 移动：http://ljhr2012.riyuangf.com/mobile/quote/74659.html

本文来自微信公众号：AI 破壳儿，原文标题：《详细笔记：OpenAI 发布会上的关键信息（上）》

OpenAI 正在进行一场为期 12 天的发布会“马拉松”，目前已经进行到第 7 天。

发布会的形式比较简单：每天在 YouTube 放出视频，主要由团队一线成员出镜介绍 OpenAI 的最新动态，并进行现场 Demo 演示。

发布会的内容既有针对企业和开发者的技术方案与付费模式，也有面向普通用户的新功能上线、还有过去“画的饼”逐步兑现... 信息繁杂，覆盖面广。

本篇文章是我们内部的观看笔记，也可以算作“会议纪要”，客观记录了每场发布会的关键信息。

如果你没时间观看视频，也可以把这篇文章作为平替。

✅ 重点一：o1 模型完整版发布。

几个月前，OpenAI 就发布了一个“会思考”的新版本模型，但是当时发的只是预览版（OpenAI o1 preview）。

这次发布会上，OpenAI 相当于是发布了这个模型的完整版，正式命名为 OpenAI o1。

跟 o1 preview 相比，本次发布的正式版本 o1 有以下提升：

1. 推理能力进一步增强：经过进一步的训练和优化，能够更好地理解和解决复杂问题，在数学、编程等领域表现出色。重大错误减少了 34%。

2. 响应速度提升：比 o1 preview 更快，能够更高效地理解问题并给出答案，快了越 50%。

3. 支持多模态输入：新发布的 o1 模型能够同时理解文本和图像信息，例如可以上传一张手写图表给 AI 来进行分析计算。

因此，本次发布的 o1 模型将正式取代 o1 preview。不过 o1 系列模型仍然只有付费用户能够使用。

需要注意的是，o1 模型在功能层面仍有一些短板，比如目前不支持网页浏览、文件上传等功能，后续需要进一步完善。

✅ 重点二：新增 ChatGPT Pro 付费计划，订阅费为 200 美金/月。

Pro 版本主要面向那些需要更强大计算能力的高级用户，例如需要进行科学研究、处理复杂数学问题或大量使用的用户。定价也远高于之前的付费计划。

虽然定价在原 Plus 版本的基础上翻了 10 倍，但是 Pro 用户也确实拥有特权，包括：

1. 模型用量无上限：Pro 用户可以无限次使用 OpenAI 的所有模型，包括 o1、GPT-4 和高级语音模式等。

2. 特供 o1 模型 Pro 模式：Pro 版本还提供了一个名为 o1 Pro 模式的特殊功能，该模式可以让 o1 模型使用更多的计算资源，在解决极具挑战性的问题时表现更出色、可靠性更高。

3. 未来的增值服务：OpenAI 后续计划为 Pro 用户提供更多增值服务，例如更长的上下文窗口（目前是 128K）、更快的响应速度等。不过这些更新尚未给出具体的时间表。

✅ 重点：“增强微调”（Reinforcement Fine-Tuning，简称 RFT）能力。

这是一个面向开发者的能力更新：通过 RFT，开发者可以花更少的力气就能实现模型在复杂专业领域的能力增强。

RFT 的过程，简单来说，就是给模型一个问题，让它思考并给出答案。然后，根据答案的正确性对模型进行评分，并强化那些导致正确答案的推理路径。

与传统的微调手段相比，强化微调具有以下特点：

1. 强调使用“黄金数据集”：发布会上提到，开发者只需几十个样本就能让模型学习到新的推理方式。这暗示着 RFT 对数据质量的要求更高，而对数据量的需求可能相对较低。

2. 教授模型推理能力，而非简单模仿：强化微调是教导模型在特定领域进行推理和思考过程，使其能够更好地解决该领域的问题。

3. 更适用于复杂任务和专业领域：强化微调特别适用于需要深入专业知识的复杂任务，例如法律、金融、医疗等领域。

下图是一个罕见病研究方向的 RFT 训练结果：在 o1-mini（比 o1 更差的基础模型）上使用训练集进行微调后，最终的评分超过了 o1 模型。

OpenAI 也简单介绍了强化微调的原理和工作流程：

原理：利用强化学习算法，根据用户提供的评分机制，不断优化模型的输出，使其更符合用户的预期。

工作流程：

Step 1：准备数据集。

用户需要准备一个包含训练数据和验证数据的文件。训练数据用于训练模型，验证数据用于评估模型的泛化能力，确保模型不会过拟合训练数据。

Step 2：定义评分器。

用户需要明确定义模型要完成的任务，并设计一个评分器，用于评估模型输出的质量。评分器会根据模型输出与预期结果的匹配程度，给出 0 到 1 之间的分数，分数越高表示模型的表现越好。

Step 3：启动训练任务。

在 OpenAI 开发平台上选择“Reinforcement Fine-Tuning”选项，并上传数据集、评分器和模型参数。OpenAI 会使用用户提供的数据和评分器，利用强化学习算法对模型进行训练。训练过程可能需要数小时到数天不等。

Step 4：评估模型性能。

训练完成后，用户可以通过 OpenAI 的评估面板查看模型的性能指标，例如准确率和评分。

强化微调（RFT）尚未开放给公众，但是感兴趣的用户可以申请加入 OpenAI 的强化微调研究计划。下面是申请链接：

https://openai.com/form/rft-research-program/

✅ 重点：Sora 正式开放使用，地址：sora.com。

需要注意的是，只有付费用户才能使用，免费用户还不行：

Plus 用户：每月 50 次视频生成次数，分辨率限制为 720p，视频长度限制为 5 秒。

Pro 用户：整体用量无上限，每月 500 次优先视频生成次数（之后仍可继续生成视频，但速度会变慢），可以生成 1080p 分辨率、时长 20 秒的视频，并且下载的视频中不会带有 Sora 水印。

除了最核心的文生视频功能之外，本次发布的 Sora 还有这些功能：

1. 图像扩展：用户可以上传一张图像，并使用文本提示引导 Sora 生成以该图像为基础的视频。

2. 视频扩展：Sora 可以将一段现有视频扩展为更长的视频，并根据用户的文本提示添加新的场景和元素。

3. 多种视频创意工具组件：

Remix（重新混合）：可以让用户轻松修改已生成的视频；

Storyboard（故事板）：可以让用户以更精细的方式控制视频的生成过程；

Loop（循环）：可以让用户将生成的视频片段无缝循环播放；

Blend（混合）：可以让用户将两个不同的视频场景融合在一起。

✅ 重点一：Canvas（画布）功能开放免费使用。

Canvas 功能之前只对 ChatGPT Plus 用户开放测试，现在 OpenAI 宣布将其全面开放给所有用户。无论是否订阅 ChatGPT Plus，都可以免费使用 Canvas。

✅ 重点二：Canvas 支持直接运行 Python 代码。

用户可以在 Canvas 中直接运行 Python 代码，并查看文本或图形输出结果。这项功能为开发者提供了更便捷的代码编写和调试环境，也为 ChatGPT 的应用拓展了更多可能性。

✅ 重点三：Canvas 支持和自定义 GPTs 联动使用。

在创建或编辑自定义 GPT 时，可以在“功能”部分启用 Canvas。

启用后，你的自定义 GPT 将能够在适当的情况下自动创建 Canvas，无需用户手动操作。

在 OpenAI 展示的例子中，一个名为“圣诞老人助手”的 GPT 被设计用于帮助圣诞老人回复孩子们寄来的信件。当用户上传孩子信件的图片时，该 GPT 会自动创建一个 Canvas，并在其中生成回复信件的初稿。

✅ 重点：ChatGPT 正式集成到 Apple Intelligence。

发布会当天，苹果发布了 iOS 18.2 更新，其中包含了 ChatGPT 与 Siri 的整合。这意味着部分 iPhone用户（特定机型 & 地区）可以直接通过 Siri 使用 ChatGPT 的功能。

同时，iPad 和 Macbook 用户也可以通过 Apple Intelligence 来和 ChatGPT 进行交互。

ChatGPT 的加入，使用户可以通过 Siri 语音命令完成更复杂的任务：

1. 通过相机按键调用「视觉智能」：用户可以通过摄像头向 Siri 展示图像，并询问 ChatGPT 相关信息。发布会上演示了如何现场让 AI 分析三位主持人的圣诞毛衣，并评选出最佳着装者。

2. 处理文本或文档：用户可以向 Siri 提供内容，并让 ChatGPT 对其进行编辑、润色、翻译、总结等操作。

3. 获取信息和知识：用户可以通过 Siri 向 ChatGPT 提问各种问题，例如历史事件、科学知识、生活技巧等。

4. 创作内容：用户可以使用 Siri 口述故事、诗歌、电子邮件等，并让 ChatGPT 帮助润色和完善。

✅ 重点一：高级语音模式支持视频通话和手机屏幕共享。

今天的内容主要聚焦于 ChatGPT 高级语音模式的更新以及一些有趣的功能演示。

ChatGPT 的高级语音模式加入了视频输入功能，使其能够“看到”用户和周围环境，并利用这些视觉信息来更好地理解用户的指令和问题。

在视频中，AI 可以识别用户的面部表情、肢体语言，以及周围环境中的物体和场景。

在演示过程中，OpenAI 展示了这些使用场景：

1. 手冲咖啡实时指导：在做手冲咖啡的过程中，与 ChatGPT 进行视频通话，AI 可以对制作过程进行实时指导。

2. 穿搭点评：用户可以跟 ChatGPT 视频，询问它对自己今天穿着打扮的评价。

3. 手机信息分析：ChatGPT 还可以通过屏幕共享功能，帮助用户分析邮件、消息如何回复。

✅ 重点二：推出“圣诞老人”虚拟角色，可以通过高级语音模式进行互动。

在圣诞期间使用实时语音功能，点击 ChatGPT App 右下角的蓝色雪花图标 ❄️，即可开始与“圣诞老人”视频或者语音通话。

有趣的是，这个虚拟角色的声音特点也很像圣诞老人，看上去像是一个从音色到对话技能都经过自定义，且支持视频和语音聊天的 GPT。

至此，OpenAI 发布会的前六天内容已全部整理完毕。

目前发布会进行到第 7 天，我们将在发布会完结后，为大家带来后半程的详细笔记。【本文完】

你可能还想读：

最全整理！OpenAI 官方分享的 10 款创新 AI 应用

AI 学习不烧钱，分享 4 个值得一学的免费精品 AI 课程

推荐 3 个国产 AI 助手，能像 OpenAI o1 一样「深度思考」

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行