AI基准测评（下）：视频生成、代码能力、逻辑推理，AI是否已经超越人类？ - 迅易阁资讯

分享好友最新动态首页最新动态分类切换频道

AI基准测评（下）：视频生成、代码能力、逻辑推理，AI是否已经超越人类？

2024-12-26 23:48

本文作者：王加龙，阿里云高级算法专家

文章推荐

AI实测｜基于图像、语言与声音，人工智能是否已经超越了人类？

AI基准测评（下）：视频生成、代码能力、逻辑推理，AI是否已经超越人类？

知乎AI产品“直答”正式上线！文心一言4.0 Turbo来袭，可为农民提供专业指导！｜AI日报

在 AI 基准测试（上）：图像处理、自然语言与语音生成，AI 是否已经超越了人类？文章中，我们通过自然语言任务、图像处理任务、语音生成三方面的基准测试，向大家展示AI的表现及效果。在本期文章中，将继续向大家展示AI在视频生成、代码能力、AI 推理等基准测试的表现及效果。

对比测评

为了衡量AI的能力，历史上有许多人提过很多有意思的测试方法，学术界也有各种各样的定量研究方法。

关于测试方法，其中很有名的一个是“图灵测试”，它是为了探究机器智能是否具备与人类相似或无法区分的能力；关于定量研究，普遍的做法是定义某种任务的测评数据集，对 AI 进行测评打分，然后对比 AI 与 Human 的得分高低。

2.1 基于图灵测试

图灵在1950年的论文中预测，“大约50年后，人们将有可能对存储容量达到109左右的计算机进行编程，使其在模仿游戏中表现出色，以至于一般提问者经过 5分钟提问后做出准确判断的几率不超过 70%”。即，AI系统的通过率达到30%（目前不清楚图灵为何选定这个值）。时至今日已过去了 70 多年，图灵的预测到底达到了没有？针对大模型的图灵测试，UCSD专门有人在研究。他们在 2023年10月、2024年5月先后共发表了2篇论文，以分享他们最新的研究进展和结论。

根据其2024年5月的最新研究论文，在图灵测试中，GPT-4有54%的情况下被判定为人类。这个值意味着什么呢？它意味着GPT-4的通过率超出了图灵当年提到的30%这个值，还意味着GPT-4被判定为人类的概率超过了五五开。

从这个意义上讲，GPT-4已经通过了图灵测试。此外，在该测试中，人类被判定为人类人概率为67%，也就是说人的表现还是更像人。

2.2 基于基准测评

用特定任务下的基准数据集做测试，在某些任务上大模型开始超越人类。比如，图像分类（2015）、基础阅读理解（2017）、视觉推理（2020）、自然语言推理（2021）、多任务语言理解任务（2024.1, Gemini Ultra）。但是，在复杂认知的任务上，AI仍然不及人类，比如视觉常识推理、竞赛级的数学问题。如下图所示，虚线是人类的水准，其它实线是AI在不同任务下的得分。

随着算法模型的迭代，某些经典测试基准的准确率已经很高，模型的性能也趋于饱和。所以，新的、更难的基准数据集也在被推出。因此，AI是否超越人类与具体的任务和测试集有关。通俗地说法是，张三、李四都得了100分，指的是他们在试卷上的表现，换张试卷可能结果会有不同。

分领域详情

本节将从视频生成、代码能力、AI 推理等六大方面，详细介绍AI的能力表现及效果。关于自然语言处理、图像处理、语音生成三个方向的基准测试可以参考上一篇文章： AI 基准测试（上）：图像处理、自然语言与语音生成，AI 是否已经超越了人类？

3.4 视频生成

视频生成领域，尚未见有流行的测评基准，所以本文将从各家模型或产品本身提供的样本来展示技术能力效果。2023年比较产品有Pika、Runway、Genmo，但主要是生成几秒钟的极短视频。直到2024年2月，OpenAI发布的Sora，可以生成长达1分钟的视频，惊艳了全世界。

本节将一一列举它们的能力。但鉴于这些都是国外的产品，所以不妨去一些中文网站观看AI生成的视频效果。

3.4.1 Pika

官网： https://pika.art/

一般只能生成几秒的极短视频。2023年4月，斯坦福两个大学生退学创业成立了Pika labs，目的是打造一个更易使用的人工智能视频生成器。Pika labs的官方博客上写道：“我们对Pika的愿景是让每个人都能成为自己故事的导演，并激发出我们每个人的创造力。”2023年11月29日，发布了第一个产品Pika 1.0，

新功能主要有以下几个方面：

一是用文本和图像生成视频，只需要输入几行文本或上传图像，就可以创建简短、高质量的视频；
二是编辑更改视频，输入相关文本，实现对背景环境、衣着道具等元素的增减或者更改；
三是切换视频风格，例如在黑白、动画等不同风格中转化；四是更改视频的宽高比。

视频观看

3.4.2 Runway

官网： https://runwayml.com/

样例一：Text to Video

https://www.yuque.com/sologun-ilfz6/mt8iwm/urtfgsidwgyigdt9#OqhKo

样例二：Image to Video

https://www.yuque.com/sologun-ilfz6/mt8iwm/urtfgsidwgyigdt9#gjVGb

样例三：Video to Video

https://www.yuque.com/sologun-ilfz6/mt8iwm/urtfgsidwgyigdt9#LpYGv

样例四：影视风格欣赏。

视频观看

主要特点总结：

一般只能生成几秒的极短视频。主要功能特点有：

AI视频生成与编辑。使用AI技术自动生成视频内容，包括动画、过渡效果和视觉特效，并提供一系列视频编辑工具。
图像生成与处理。可以利用Runway的AI算法创建新的图像、修改现有图像或进行风格转换。
3D内容创作。支持3D模型的生成、编辑和渲染，以及实时3D场景的构建和交互。
音频处理。提供了音频处理工具，如语音合成、音乐生成和音效设计。
Workflow自动化。允许用户创建和定制工作流程，自动化复杂的创意任务和流程。
API与集成。提供了API，使得开发者能够将其AI功能集成到自己的应用程序和服务中。

3.4.3 Genmo

官网： https://www.genmo.ai/?ref=aihub.cn

Genmo最近的一款产品为Replay，它是一款高质量AI视频生成器；截止2024年5月份已经发布v0.1、v0.2。一般只能生成几秒的极短视频。每天会有一些免费额度可供试用（注：左下角注册可用，但需要ladder）。

一、主要特性

Genmo Replay：一款强大的文本到视频的模型，能将文本提示转化为动态视频。
AI驱动的艺术创作：根据用户定义的提示生成令人惊叹的图像和艺术作品。
3D物体生成：利用Genmo的AI能力轻松创建复杂的3D模型。

二、适用用户

非常适合内容创作者、数字艺术家、视频制作人以及媒体行业的专业人士。它提供了一种无缝的解决方案，用于生成高质量的视频、图像和3D物体，减少了传统内容创作过程中所需的时间和努力。

3.4.4 Emu Video

论文： https://arxiv.org/pdf/2311.10709
官网： https://emu-video.metademolab.com/

此前一般的视频生成，往往依循的是图像生成的路径，而Emu Video则是Meta基于Transformer的视频生成模型，它不再靠图像一帧帧生成来堆积成视频。它先基于文本生成图片，然后基于文本和图片来直接生成视频。

3.4.5 Vidu

官网： https://www.shengshu-ai.com/vidu

Vidu是北京生数科技有限公司联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型，于2024年4月27日在中关村论坛上发布。该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率达1080P的高清视频内容。

视频观看

3.4.6 Sora

技术报告：

https://openai.com/index/video-generation-models-as-world-simulators/

官网： https://openai.com/index/sora/

2024年2月16日，OpenAI发布了 Sora 大模型，它可根据用户指令生成长达1分钟的高清视频，能生成具有多个角色、包含特定运动的复杂场景。样例一：简化后的动图OpenAI一共放出了48个视频来展示Sora模型的强大之处。可以找一个自媒体的文章看简化动图，如下：

提示词：无人机拍摄的海浪冲击着大苏尔加雷角海滩上崎岖的悬崖。蓝色的海水拍打着白色的波浪，夕阳的金色光芒照亮了岩石海岸。远处有一座小岛，岛上有一座灯塔，悬崖边上长满了绿色的灌木丛。从公路到海滩的陡峭落差是一个戏剧性的壮举，悬崖的边缘突出在海面上。这是一幅捕捉到海岸原始美景和太平洋海岸公路崎岖景观的景色。

样例二：完整长视频

https://player.bilibili.com/player.html?bvid=BV1Wm411S73n&autoplay=0

样例三：世界模拟器验证

号称能够理解和模拟运动中的物理世界。下面大家可以仔细观看如下官方视频，验证它是否真的具备“世界模拟器”的潜力。

视频观看

3.5 代码能力

做AI算法的人都是要写代码的，所以很早大家就在研究如何让AI具备写代码的能力。近几年，大模型用于代码生成成为了热门方向。大模型在训练过程中，基本都会掺入代码数据进行学习，所以许多大模型都具有代码生成与理解的能力。

3.5.1 基础代码（HumanEval）

论文： https://arxiv.org/pdf/2107.03374v2
榜单： https://paperswithcode.com/sota/code-generation-on-humaneval

对于基础性的编程问题方面（比如函数级的编程），大模型的准确率已经达到了很高准确率。HumanEval基准（2021年提出）是目前最流行的评估基准，它包含了164道原始编程题，每个问题都包括一个函数签名、文档字符串、正文和几个单元测试；因为模型是基于GitHub代码训练的，所以采用人工单独写的代码作为测评基准是比较客观的。

HumanEval数据集中可评估语言理解、推理、算法和简单数学能力，要求从文档字符串生成独立 Python函数。

目前，**得分最高的是AgentCoder（基于GPT-4，HKU、SJTU、KCL），其准确率达到了96.3%。**这个分数是很厉害的，因为GPT4仅为76.5%、Gemini Ultra仅为74.4%。

3.5.2 综合理解（CodeXGLUE）

论文： https://arxiv.org/pdf/2102.04664
GitHub： https://github.com/microsoft/CodeXGLUE

CodeXGLUE包含 14个数据集（大部分整理自其他评估任务）、涉及10个任务，以及一个用于模型评估和比较的平台。CodeXGLUE还转门提供了三个baseline模型，包含BERT模型、GPT模型和Encoder-Decoder模型，以使研究者更易使用该平台进行测评对比。这些数据和基准线可以帮助开发和验证各种程序理解和生成的新方法。数据集主要包括：1）2个填空测试数据集，涵盖了6种编程语言；2）2个行级别的代码补全数据集，分别采用Java、Python；3）1个Java-C#代码转换数据集；4）2个自然语言代码搜索测试集；5）1个文档翻译数据集，涵盖5种自然语言。

根据该数据集 GitHub 中的描述，它所考察的 10 类任务如下：

**克隆检测：**任务是测量代码之间的语义相似性。这包含两个子任务：第一个子任务，是检查两个给定的代码是否有相同的语义；第二个子任务的目标是，给定一个代码作为询问，检索语义相似的代码。
**缺陷检测：**目标是确定源代码体是否包含可用于攻击软件系统的缺陷，如资源泄漏、释放后使用漏洞和DoS攻击。
**完形填空测试：**预测一个代码中的掩码标记，包含两个子任务。第一个是从整个词汇表中测量预测掩码标记的准确性。另一个是通过区分“max”和“min”来测试语义推理能力。
**代码补全：**根据代码的上下文预测接下来的token。它的子任务是token级别的代码完成和行级别的代码完成。前者检查了下一个token是否被正确预测，而后者检查了生成的行有多好。
**代码翻译：**将代码从一种编程语言翻译成另一种，比如，从 Java 到 C#。
**代码搜索：**通过度量文本和代码见的语义相关性，来实现搜索。它由两个子任务构成。第一个是根据自然语言询问，找到最相关的代码；第二个子任务是分析询问-代码对，来预测代码是否回答了询问。
**代码修复：**目标是通过自动化代码bug修复来完善代码。
**文本到代码的生成：**通过自然语言描述生成代码。
**代码摘要：**为代码生成自然语言注释（docstring 或 comment）。
**文件翻译：**将代码文档从一种自然语言翻译到另一种。

部分数据集示例如下。公开榜单上给出了一些模型的测评分数，但整体上都不太理想，说明仍有进步空间。

3.5.3 工程代码（SWE-bench）

论文： https://arxiv.org/pdf/2310.06770
官网： https://swe-agent.com/
Demo： https://swe-agent.com/demo

2023年10月，一项新的基准被提出来了，它就是SWE-bench（2294道题），来自于GitHub issues和流行的Python库（主要是bug报告和功能需求）；SWE-Bench用于评估AI的软件工程能力，重点考察大模型解决实际GitHub问题的能力。它往往需要依据上下文多个函数、不同的运行环境来执行复杂的推理：因为i修复一个bug可能涉及导航一个大型仓库，理解不同文件中的功能之间的相互作用，或者在复杂的代码中发现一个小错误。这个难度，可想而知！

该测评基准的任务具体模式为：

**模型输入。**给模型一个问题的文本描述和一个完整的代码库。其任务是对代码库进行编辑以解决问题。实际上，它将编辑表示为补丁文件，这些文件指定了为了解决问题需要修改代码库中的哪些行。
评估指标。为了评估一个提出的解决方案，使用unix的补丁程序应用生成的补丁到代码库，然后执行与任务实例相关的单元和系统测试。如果补丁成功应用并且所有这些测试都通过，即认为提出的解决方案成功解决了问题。基准的指标是解决的任务实例的百分比。

该基准近乎“无敌”：各类知名大模型纷纷交出了接近0分的答卷。直到普林斯顿大学发布SWE-agent，通过与GPT4联手（SWE-agent+GPT4）“秒杀”了此前一众模型，但即便如此也仅解决了其中12.47%的问题。

3.6 AI推理

3.6.1 通用推理

所谓通用推理，是指能做到广泛推理而不需要给定某个领域。下面用两个比较著名的专家级测评基准来看看当前AI的能用推理能力。

基准一：MMMU

论文： https://arxiv.org/pdf/2311.16502
榜单： https://mmmu-benchmark.github.io/

MMMU（MassiveMulti-disciplineMultimodalUnderstanding and Reasoning），它用于对专家级的AGI作测评。由北美学者开发，包含11500大学水平的问题，来自六大核心领域：艺术&设计，商业，科学，健康&医疗，人类与社会科学，化学结构，等等。

根据2024年5月27日最新榜单数据，目前最厉害的模型是 GPT-4o，全科目测评准确率为 69.1%，尚不能达到人类专家的中等水平的准确率82.6%。

基准二：GPQA

论文： https://arxiv.org/abs/2311.12022

GPQA：（A Graduate-LevelGoogle-ProofQ&ABenchmark），它是2023年由NYU、Anthropic、Meta等提出，用于测评AI在多学科下的推理能力。包含了448道高难度的多选题，由各领域（比如生物、物理、化学）专家精心制作，使得这些题即便通过Google搜索也难以找到答案。PhD水平的专家，在GPQA上选择相应专长学科进行测试，准确率为72.5%；非专家的普通人的准确率则为30.5%。可见，这是地狱般的难度。

目前，表现最好的AI模型是GPT-4，准确率为41%，超过了普通人，但还远不及专家级水平。

3.6.2 数学推理

数学问题求解的测评基准用于评估AI的数学推理能力。用从小学水平到竞赛标准的各种数学题进行测试，可以实现AI模型的数学推理能力测评。在此列举三种测评基准数据集。

基准一：GSM8K

该数据集由大约8000道题组成，是小学各年级的题目。要求AI模型运用算术运算来给出多步骤的解法。该基准成为了测评各种高级LLM的热门基准。目前，最强表现来自于GPT-4变体，即GPT-4 Code Interpreter，准确率达到了97%。这说明，AI的数学能力在某种程度上“小学毕业”了。

基准二：MATH

论文： https://arxiv.org/pdf/2103.03874

MATH数据集包含有12500道竞赛级的数学题，是UC Berkeley的研究人员于2021年提出。刚提出时，AI系统不堪一击，只能解决6.9%的问题；到了2023年，基于GPT-4的模型已经可以解决84.3%的问题了，这是目前AI最高的水平（人类的基线水平是90%）。

3.6.3 视觉推理

视觉常识推理（Visual Commonsense Reasoning, VCR）挑战是2019年提出的，用于测试AI系统的常识性视觉推理能力。在这项测试挑战中，AI系统不仅要基于图片来回答问题，还要给出答案背后的推理逻辑。VCR水平的高低采用Q->AR分数，它既评估选择出正确答案的能力（Q->A）、也评估答案背后是否有合理的原因（Q->R）。

截止到2023年，AI系统尚未达到人类水平；但看来为时也不远了。

3.6.4 因果推理

因果推理(Causal Reasoning)用于评估AI系统理解因果关系的能力。

BigToM

此前，关于LLM是否具备“心智”（Theory-of-mind, ToM）这方面的评估一直比较少。ToM可用于理解一些精神状态相关的东西，比如信念、意图以及情感。所以2023年一项名为BigToM的基准被研究人员提了出来，用于评估LLM的社会能力和因果推理能力。这项基准包含了25个控制变量和5000个模型生成的评估，已被人类评估者认定为评估模型ToM的优选基准。

主要测试LLM在前向信念（预测未来事件）、前向行动（基于未来事件预测的行动）、以及后向信念（追溯性地推断行为的原因）。在这几个方面，目前GPT-4表现最佳，已经比较接近人类水平。

微软和芝加哥大学的研究者已经证明LLM是有效的因果推理器。他们采用Tübingen因果对数据集，对近期若干LLM进行了评估。这个基准数据集，包含了超过100个因果对，涉及37个分支学科。

GPT-4获得了96%的准确率。此外同，研究发现某些提示词，尤其是有益于鼓励的词，能显著提升LLM的因果推理能力。

总结

通过探讨“AI是否超越了人类”这个话题，可以更清晰地了解到哪些能力是AI具备的、哪些是不具备的。无论是算法岗、还是非算法岗人员，通过深入了解各领域各任务下的基准数据集以及 AI 在这些数据集下的具体表现，或许能帮大家为各自所处业务场景找到一些参考或灵感。

如果你是应用算法工程师，也许可以从中了解各任务场景的SOTA算法是什么水平。
如果你是平台开发工程师，也许可以从中了解到有哪些AI功能可以为你所集成。
如果你是产品或架构师，也许能对新一代产品或架构设计产生智能化的新灵感。
如果你是运维或运营岗，也许能对AI赋能业务抱有更准确的期望。

篇幅较长、内容涉及较广，又限于个人水平和视野，故难免存在不准确之处，敬请批评指正。欢迎探讨和交流。

“可信 AI 进展 “ 公众号致力于最新可信人工智能技术的传播和开源技术的培育，覆盖大规模图学习，因果推理，知识图谱，大模型等技术领域，欢迎扫码关注，解锁更多 AI 资讯～

最新文章

白板标注器

直播讲课画笔标注工具白板标注器直播讲课工具，占用空间小；网课标注工具，操作简单，界面简洁；线上会议重点标注，用途广泛，开启快速；主播都在用，赶紧下载吧！ 51下载站提供白板标注器app官方版下载地址，有需要的用户可免费下载使用！

肠炎和直肠炎的区别是什么

肠炎和直肠炎的区别在于病变部位、病因、症状、治疗方法以及预后情况。1.病变部位肠炎指的是整个肠道出现炎症反应，包括小肠和大肠。而直肠炎仅涉及直肠末端部分。2.病因肠炎可能由病毒、细菌感染或食物不耐受引起，如轮状病毒感染、志贺菌

聊天被诬陷性骚扰犯法吗

一、聊天被诬陷性骚扰犯法吗在交流过程中受到指控涉嫌性骚扰，然而仅凭恶意的指责而缺乏实际行为作为支撑，此种情况并不符合犯罪构成要件。若该项诬告最终导致指控者承受了不当的制裁或名誉受到了实质性的伤害，那么诽谤者则有可能就其恶意

苹果哪款手机拍照效果最好？苹果十大最佳拍照手机排名

苹果当中拍照好的手机很多，苹果十大最佳拍照手机排名为：iPhone SE 2020，iPhone 12 Pro，iPhone 11，iPhone SE 2，iPhone 6S Plus，iPhone 6S，iPhone12 Pro Max，iPhone 12 mini，iphone 12，iPhone 13 mini，这十款苹果手机是目前拍照

联想笔记本电池驱动（联想笔记本进BIOS按什么键）

1. 引起读者的注意在现代社会中，笔记本电脑已经成为人们日常生活不可或缺的工具。随着使用时间的增加，笔记本电池的性能逐渐下降，给用户带来了不便。而联想作为知名的电脑品牌，其笔记本电池驱动更是备受关注。我们如何进入联想笔记本的B

一文全方位掌握“架构原则”：3 总则、4 域细则与 TOGAF 10 原则

架构设计不像数学公式或者物理定律那样有固定的解答。很多时候，它是设计师在各种需求、技术限制和未来规划之间做出的权衡结果，是一种最符合实际情况的“智慧输出”。不过，虽然架构设计充满了不确定性，但一些好的架构原则和思路可以帮助

湖南筱度引领企业SEO新营销浪潮

湖南筱度SEO优化推广服务，专注提升企业网络营销效果，助力企业开启互联网营销新篇章，实现品牌影响力与市场竞争力双提升。随着互联网技术的飞速发展，网络营销已经成为企业获取客户、提高品牌知名度的重要手段，在众多网络营销策略中，SEO

色情链接太多了吧，百度遭媒体质疑｜1月21日坏消息榜

关注钛媒体每日、每月整理发布的行业坏消息榜，一榜略尽当日当月最具影响的坏消息。近日，有记者通过电脑页面和手机客户端，分别登录此前报道中涉及的贴吧，看到大多数贴吧已被彻底关停，但名为“苍XX”的贴吧，仍可通过手机客户端间断登录

百度搜索优化这样做，让你的流量蹭蹭暴涨！

对于SEOER来说，百度搜索优化是个老生常谈的话题。做好百度搜索引擎优化，不仅有助于网站在搜索引擎上获得良好的排名，带来的自然曝光和流量也十分可观。无论从品牌传播的角度还是从业务转化的角度，都大有裨益。那么，当网站访客流量遭遇

微信外链新闻：全面外链策略指南

网站外链建设规划目标：建立高质量的外链网络，提高网站在搜索引擎结果页面 (SERP) 中的排名和可见度。策略：* 创建有价值的内容：撰写信息丰富、引人入胜且相关的文章、博客文章和指南，为受众提供价值。* 接触相关网站和影响者：寻找相关

相关文章

推荐文章

在2023年怎么用Google Play？从零开始的谷歌商店购买教程「剁手...

买淘宝店铺注意事项，买淘宝店铺注意事项怎么写

Python实现微信自动回复+AI智能回复（完整代码）

VOCs在线监测系统区域气相五参监测设备

VIVO整合营销传播案例：创新推动行业引领

卡牌手游一个就够了《异次元大作战》迎官方版紧急加开新服

谷歌提交网址收录入口谷歌收录快车道：一键提交网址入口全攻略

苹果显示时间怎么设置

乌鸦AI日报：Claude推类GPTs功能Projects，原阿里副总裁加盟上海大模型“国家队”

实际案例说明AI时代大语言模型三种微调技术的区别——Prompt-Tuning、Instruction-Tuning和Chain-of-Thought

发表评论