DeepMindGemini挑战GPT-4：全新人工智能顶峰，规模最大能力最强

DeepMindGemini挑战GPT-4：全新人工智能顶峰，规模最大能力最强

2024-12-26 12:08

文章目录

系列文章目录
前言
谷歌和 Alphabet 首席执行官桑达尔-皮查伊（Sundar Pichai）的说明
一、Gemini 介绍
二、最先进的性能
三、新一代功能
四、复杂的推理能力
五、理解文本、图像、音频及其他内容
六、先进的编码技术
七、更可靠、可扩展、高效
八、以责任和安全为核心
九、让 Gemini 走向世界
- 9.1 谷歌产品中的 Gemini Pro
  - 9.2 使用 Gemini 进行构建
  - 9.3 Gemini Ultra 即将推出
  - 9…4 Gemini 时代：成就创新未来

2023 年 12 月 06 日

12 分钟阅读

让人工智能为每个人提供更多帮助

Sundar Pichai

谷歌和 Alphabet 首席执行官

Demis Hassabis

谷歌 DeepMind 首席执行官兼联合创始人

每一次技术变革都是推动科学发现、加快人类进步和改善生活的机遇。我相信，我们现在看到的人工智能转型将是我们有生之年最深刻的转型，远远超过之前向移动或网络的转型。人工智能有可能为世界各地的人们创造从日常到非凡的机遇。它将带来新一轮的创新和经济进步，并以前所未有的规模推动知识、学习、创造力和生产力的发展。

这正是让我感到兴奋的地方：让人工智能在世界各地为每个人带来帮助的机会。

作为一家以人工智能为先的公司，我们已经走过了将近八年的历程，进步的步伐只会越来越快：现在，数百万人正在我们的产品中使用生成式人工智能来完成他们一年前无法完成的事情，从寻找更复杂问题的答案到使用新工具进行协作和创作。与此同时，开发人员正在使用我们的模型和基础架构来构建新的生成式人工智能应用，世界各地的初创企业和企业正在利用我们的人工智能工具不断发展壮大。

这是令人难以置信的发展势头，然而，我们才刚刚开始触及可能的表面。

我们正在大胆而负责地开展这项工作。这意味着我们要雄心勃勃地开展研究，追求能为人类和社会带来巨大利益的能力，同时建立保障措施，并与政府和专家合作，随着人工智能能力的提高来应对风险。我们将继续投资于最优秀的工具、基础模型和基础设施，并在人工智能原则的指导下，将它们应用到我们的产品和其他产品中。

现在，我们正通过双子座（Gemini）在我们的征程上迈出下一步，这是我们迄今为止能力最强、最通用的模型，在许多领先基准测试中具有最先进的性能。我们的第一个版本 Gemini 1.0 针对不同尺寸进行了优化： Ultra、Pro 和 Nano。这些是双子座时代的首批模型，也是我们今年早些时候成立谷歌 DeepMind 时的愿景的首次实现。这一新时代的模型代表了我们公司在科学和工程方面所做的最大努力之一。对于未来的发展，以及双子座将为世界各地的人们带来的机遇，我感到由衷的兴奋。

Sundar Pichai

由谷歌 DeepMind 首席执行官兼联合创始人 Demis Hassabis 代表 Gemini 团队撰写

和我的许多研究同事一样，人工智能一直是我毕生工作的重点。自从少年时代为电脑游戏编写人工智能程序，以及多年来作为神经科学研究员试图了解大脑的工作原理以来，我一直坚信，如果我们能制造出更智能的机器，就能利用它们以不可思议的方式造福人类。

人工智能以负责任的方式赋予世界力量，这一承诺将继续推动我们在谷歌 DeepMind 的工作。长期以来，我们一直希望从人们理解世界和与世界互动的方式中汲取灵感，建立新一代人工智能模型。人工智能给人的感觉不像一款智能软件，而更像是一种有用的、直观的东西–专家帮手或助手。

今天，我们向这一愿景又迈进了一步，因为我们推出了 Gemini，这是我们迄今为止构建的最强大、最通用的模型。

Gemini 是包括我们在谷歌研究院的同事在内的谷歌团队大规模合作的成果。它从一开始就是为多模态而构建的，这意味着它可以概括并无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。

Gemini 也是我们迄今为止最灵活的模型–能够在从数据中心到移动设备的所有设备上高效运行。其最先进的功能将大大增强开发人员和企业客户构建和扩展人工智能的方式。

我们对 Gemini 1.0（我们的第一个版本）进行了优化，使其适用于三种不同的规模：

Gemini Ultra - 我们最大、功能最强的模型，适用于高度复杂的任务。
Gemini Pro - 我们的最佳模型，适用于各种任务的扩展。
Gemini Nano - 我们用于设备上任务的最高效模型。

我们一直在严格测试我们的 Gemini 模型，并评估其在各种任务中的性能。从自然图像、音频和视频理解到数学推理，在大型语言模型（LLM）研发中广泛使用的 32 个学术基准中，Gemini Ultra 在其中 30 个基准上的表现超过了当前最先进的结果。

Gemini Ultra 的得分率高达 90.0%，是第一个在 MMLU（大规模多任务语言理解）上超过人类专家的模型，该模型综合使用数学、物理、历史、法律、医学和伦理学等 57 个学科来测试世界知识和解决问题的能力。

我们对 MMLU 采用了新的基准方法，使 Gemini 能够利用其推理能力，在回答难题之前进行更仔细的思考，从而比仅仅利用第一印象有显著提高。

Gemini Ultra 在新的 MMMU 基准测试中也取得了 59.4% 的一流成绩，该基准测试由跨不同领域、需要慎重推理的多模态任务组成。

在我们测试的图像基准测试中，Gemini Ultra 在没有对象字符识别 (OCR) 系统（从图像中提取文本进行进一步处理）辅助的情况下，表现超过了以前的一流模型。这些基准测试凸显了 Gemini 的原生多模态性，并显示了 Gemini 更复杂推理能力的早期迹象。

更多详情，请参阅我们的 Gemini 技术报告。

到目前为止，创建多模态模型的标准方法是为不同模态训练不同的组件，然后将它们拼接在一起，以大致模仿其中的某些功能。这些模型有时可以很好地完成某些任务，如描述图像，但在概念性更强、更复杂的推理方面却很吃力。

我们将 Gemini 设计为原生多模态模型，从一开始就在不同模态上进行预训练。然后，我们利用额外的多模态数据对其进行微调，以进一步提高其有效性。这有助于 Gemini 从一开始就无缝地理解和推理各种输入，远远优于现有的多模态模型–其能力几乎在每个领域都是最先进的。

了解有关 Gemini 功能的更多信息，看看它是如何工作的。

Gemini 1.0 先进的多模态推理能力可帮助理解复杂的书面和视觉信息。这使它在发掘海量数据中难以辨别的知识方面具有独特的技能。

通过阅读、过滤和理解信息，双子星 1.0 能够从成千上万的文档中提取独到的见解，这将有助于在从科学到金融等众多领域以数字化的速度实现新的突破。

Gemini 1.0 经过训练，可以同时识别和理解文本、图像、音频等，因此它能更好地理解细微信息，并能回答与复杂主题相关的问题。这使它尤其擅长解释数学和物理等复杂学科的推理。

我们的第一版 Gemini 可以理解、解释和生成世界上最流行的编程语言（如 Python、Java、C++ 和 Go）中的高质量代码。它能够跨语言工作并对复杂信息进行推理，这使它成为世界领先的编码基础模型之一。

Gemini Ultra 在多个编码基准测试中表现出色，其中包括用于评估编码任务性能的重要行业标准 HumanEval，以及我们内部保留的数据集 Natural2Code，该数据集使用作者生成的来源而非基于网络的信息。

Gemini 还可用作更高级编码系统的引擎。两年前，我们推出了 AlphaCode，它是第一个在编程竞赛中达到具有竞争力水平的人工智能代码生成系统。

利用 Gemini 的专门版本，我们创建了一个更先进的代码生成系统 AlphaCode 2，它擅长解决超出编码范围、涉及复杂数学和计算机科学理论的编程竞赛问题。

在与最初的 AlphaCode 相同的平台上进行评估时，AlphaCode 2 显示出巨大的改进，解决的问题数量几乎是 AlphaCode 的两倍。当程序员与 AlphaCode 2 合作，为代码样本定义某些属性时，AlphaCode 2 的表现会更好。

我们很高兴程序员能越来越多地使用高能力人工智能模型作为协作工具，帮助他们推理问题、提出代码设计方案并协助实施，这样他们就能更快地发布应用程序并设计出更好的服务。

更多详情，请参阅我们的 AlphaCode 2 技术报告。

我们使用谷歌内部设计的张量处理单元 (TPU) v4 和 v5e，在我们的人工智能优化基础架构上对 Gemini 1.0 进行了大规模训练。我们将其设计为最可靠、可扩展的训练模型和最高效的服务模型。

在 TPU 上，Gemini 的运行速度明显快于早期规模较小、能力较弱的模型。这些定制设计的人工智能加速器是谷歌人工智能产品的核心，这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play 和 Android 等数十亿用户提供服务。它们还帮助世界各地的公司经济高效地训练大规模人工智能模型。

今天，我们发布了迄今为止最强大、最高效、可扩展的TPU系统–Cloud TPU v5p，专为训练尖端的人工智能模型而设计。这款新一代 TPU 将加速 Gemini 的发展，帮助开发人员和企业客户更快地训练大规模生成式 AI 模型，让新产品和新功能更快地与客户见面。

在谷歌，我们致力于在一切工作中推进大胆而负责任的人工智能。在谷歌人工智能原则和我们所有产品的健全安全政策的基础上，我们正在增加新的保护措施，以应对 Gemini 的多模式能力。在每个开发阶段，我们都会考虑潜在风险，并努力进行测试和降低风险。

Gemini 拥有迄今为止谷歌人工智能模型中最全面的安全评估，包括偏差和毒性评估。我们对网络攻击、说服和自主性等潜在风险领域进行了新颖的研究，并应用了谷歌研究院一流的对抗测试技术，帮助在 Gemini 部署前找出关键的安全问题。

为了找出内部评估方法中的盲点，我们正与不同的外部专家和合作伙伴合作，针对一系列问题对我们的模型进行压力测试。

为了在 Gemini 的训练阶段诊断内容安全问题，并确保其输出符合我们的政策，我们正在使用 “真实毒性提示”（Real Toxicity Prompts）等基准，这是一套由艾伦人工智能研究所（Allen Institute for AI）的专家从网络上提取的 10 万条具有不同程度毒性的提示。有关这项工作的更多详情即将公布。

为了限制危害，我们建立了专门的安全分类器来识别、标记和分类涉及暴力或负面刻板印象等内容。结合强大的过滤器，这种分层方法旨在使 Gemini 对每个人都更加安全和包容。此外，我们还在继续解决已知的模型难题，如事实性、基础、归属和确证。

责任和安全将始终是我们开发和部署模型的核心。这是一项需要合作建设的长期承诺，因此我们正在与业界和更广泛的生态系统合作，通过 MLCommons、前沿模型论坛及其人工智能安全基金等组织，以及我们的安全人工智能框架（SAIF），定义最佳实践并设定安全和安保基准。在开发 Gemini 的过程中，我们将继续与世界各地的研究人员、政府和民间团体合作。

Gemini 1.0 现已在一系列产品和平台中推出：

9.1 谷歌产品中的 Gemini Pro

我们将通过谷歌产品为数十亿人带来 Gemini。

从今天起，Bard 将使用经过微调的 Gemini Pro 版本，以实现更高级的推理、规划、理解等功能。这是 Bard 推出以来最大的一次升级。它将在 170 多个国家和地区提供英语版本，我们计划在不久的将来扩展到不同的模式，并支持新的语言和地区。

我们还将为 Pixel 带来 Gemini。Pixel 8 Pro 是首款运行 Gemini Nano 的智能手机，Gemini Nano 支持录音机应用中的摘要等新功能，并从 WhatsApp 开始在 Gboard 的智能回复中推出，明年还将推出更多消息应用。

未来几个月，Gemini 将应用于我们更多的产品和服务，如搜索、广告、Chrome 浏览器和 Duet AI。

我们已经开始在搜索中尝试使用 Gemini，它使我们的搜索生成体验（SGE）对用户来说更快，在美国英语中的延迟降低了 40%，同时质量也得到了改善。

9.2 使用 Gemini 进行构建

从 12 月 13 日开始，开发人员和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。

Google AI Studio是一款免费的基于网络的开发人员工具，可使用API密钥快速创建原型并启动应用程序。当需要一个全面管理的人工智能平台时，Vertex AI 允许对 Gemini 进行定制，并提供全面的数据控制，同时受益于额外的谷歌云功能，以实现企业安全性、安全性、隐私性以及数据治理和合规性。

从 Pixel 8 Pro 设备开始，Android 开发人员还将能够通过 AICore（Android 14 中提供的一项新系统功能）使用 Gemini Nano（我们用于设备上任务的最高效模型）进行构建。注册获取 AICore 的早期预览版。

9.3 Gemini Ultra 即将推出

对于 Gemini Ultra，我们目前正在完成广泛的信任和安全检查，包括由受信任的外部方进行红组，并在广泛提供之前使用微调和人类反馈强化学习（RLHF）进一步完善模型。

作为这一过程的一部分，我们将向部分客户、开发人员、合作伙伴以及安全和责任专家提供 Gemini Ultra，供其进行早期实验和反馈，然后在明年初向开发人员和企业客户推出。

明年年初，我们还将推出 Bard Advanced，这是一种全新的尖端人工智能体验，从 Gemini Ultra 开始，您可以使用我们最好的模型和功能。

9…4 Gemini 时代：成就创新未来

这是人工智能发展的一个重要里程碑，也是谷歌新时代的开始，我们将继续快速创新，以负责任的态度提升我们模型的能力。

到目前为止，我们在 Gemini 上已经取得了巨大进步，我们正在努力为未来版本进一步扩展其能力，包括在规划和记忆方面的进步，以及增加上下文窗口以处理更多信息，从而给出更好的反应。