分享好友 最新动态首页 最新动态分类 切换频道
GPT-4与Google Gemini 终极对比:谁是大模型的霸主
2024-12-27 01:38

谷歌最近推出了他们的最新科技产品——Gemini Pro,这一产品的发布引起了广泛关注。紧随其后,他们还计划推出性能更强的 Gemini Ultra。

GPT-4与Google Gemini 终极对比:谁是大模型的霸主

目前,科技界正对 Gemini Pro 和 Gemini Ultra 与其他先进技术进行比较。例如,Claude 2 被认为在某些方面超越了 GPT-4,谷歌的 Bard 也表现出色,而现在谷歌的 Gemini 系列似乎正在成为新的领跑者。这引发了一个问题:Gemini 系列是否真的在性能上超过了 GPT-4

这个话题正成为最近博客作者们热议的焦点。他们引用了一张表格,声称基于一项广受尊敬的基准测试,Gemini 已经超越了 GPT-4。而众所周知,数据是客观的。以下是相关的数据对比

关于基准测试,有一个不容忽视的事实——它们并非完美无瑕。想象一下,如果一个语言模型是用它被测试时使用的相同数据来训练,那就类似于提前看到了考试题目。如果模型仅针对这些内容进行学习,它自然会表现得非常出色。但这并不意味着它本身更加先进,只是因为它对这些特定内容准备得更充分。

因此,尽管我们并没有指责谷歌使用任何不当手段,但在接受这些基准测试结果时,我们应持谨慎态度。

现在,让我们来详细比较一下谷歌的 Gemini Pro 和 GPT-4。如果你还没有尝试过 Gemini Pro,值得一提的是,它是免费提供的。你可以在这里了解更多:bard.google.com/。此外,Gemini Pro 可以直接与谷歌的 Bard 进行连接。接下来,我们将看看它们在各个方面的表现如何(如下图所示)。

对比项GPT-4Gemini Pro推理能力高效准确,友好解决逻辑问题较差,答案有时不够精确视觉能力准确理解和解释图像内容在图像识别和解释方面不如 GPT-4Token限制处理长文本能力强,例如可处理约17,408字的文本相对较低的Token限制,处理大文本时可能达到极限长文本摘要结构清晰、连贯能对 YouTube 视频进行摘要,但文本摘要略逊一筹知识更新更新至2023年4月最后更新时间不明确数学技能解决数学问题表现出色在数学问题解答中有波动网络搜索能力在网络搜索方面存在局限强大的网络搜索能力,优于 GPT-4

大型语言模型的类似人类思维能力可以通过考察其解决逻辑问题的能力来评估。例如,以下是一个逻辑问题

张三*从A班转到B班会导致两个班的平均智商都提高吗?*解释为什么能或者为什么不能。

答案很简单:如果杰克的智商低于 A 班的平均智商,但高于 B 班的平均智商,那么他转到 B 班后,B 班的平均智商就会上升。反之,如果杰克的智商高于 A 班的平均智商,但低于 B 班的平均智商,那么他转到 B 班后,A 班的平均智商就会上升。因此,杰克从 A 班转到 B 班会增加这两个班级的平均智商。

我们看看 ChatGPT-4 的表现如何

GPT-4 提供了一个精准而友好的答案,直击要点。

相比之下,Gemini Pro 的尝试并未达到同样的标准。以下是其较为出色的一次尝试

在进行常识知识测试时,我们遇到了一个非常说明性的例子。问题十分直白

“假设我有一个12升的水壶和一个6升的水壶,我想要量出6升水,应该如何操作?”

其解决方案非常简单明了:只需使用6升的水壶来量取所需的6升水。

虽然 GPT-4 给出的回答可能稍显冗长,但它确实解决了这个问题

然而,相比之下,Gemini Pro 的处理方式则显得更为复杂

这里是一个典型的常识性问题

我有 5 件衣服在阳光下晒。需要5个小时才完全干燥。如果我要晒30件衣服需要多长时间

众所周知的答案是 — 只需5个小时。

Gemini Pro 对此问题的回答并不友好,给出了错误的答案。

另一方面,ChatGPT-4提供了正确答案

这一比较揭示了 Gemini Pro 和 GPT-4 在推理和常识方面的显着差距。

这次比较清晰地展示了 Gemini Pro 与 GPT-4 在推理和常识处理能力上的显著差异。

与 GPT-4 一样,Gemini Pro 也是一种多模态模型,具备包括图像识别在内的印象深刻的能力。我使用了 “LMMs黎明:对GPT-4V(ision)的初步探索” 论文中的图片和问题来测试这一点。

当向 Gemini Pro 展示一个特定图像并询问其幽默方面的内容时,其回应并不十分准确。

它错误地将犀牛角识别为乌龟,忽略了图像中真正的幽默。

相比之下,GPT-4 表现出了对图像内容和含义的精确理解。

我还测试了他们解读另一个图像的能力,要求他们描述其内容、汉字,并确定食物的原产地城市。

Gemini Pro 的回答是

而在相同的测试中,GPT-4 提供了如下的回应

这种比较显示出,尽管 Gemini Pro 在多语言处理方面可能更为强大,但 GPT-4 在图像识别和解读方面的表现略胜一筹,对于理解和解释图像内容更为准确。

在大型语言模型的应用领域中,Token的容量是一个关键因素。所谓Token容量,指的是模型在一次对话中能够处理和记忆的词汇数量。Token限制越高,模型能够进行的对话就越长久、细节越丰富。

举个例子,当要求模型对一本书进行总结时,它一次能处理的词汇越多,其提供的总结就越全面。在持续对话的情境中,更高的Token限制意味着模型具有更好的记忆能力,使得聊天过程更为流畅和连贯。

在测试中,Gemini Pro的Token限制显著低于GPT-4。举例来说,我曾尝试让它将Sam Altman在OpenAI DevDay上的45分钟演讲转化为一篇文章。但Gemini Pro在处理到30分钟时就已达到其处理极限。

Gemini Pro 在这项任务中处理的总词数大约为5327个词。

此外,Gemini Pro 还提供了一个非常实用的功能,即用户可以从三种不同的回应中选择一种。通过这种方式,用户可以将回应的总字数增加到大约6000字。

然而,在相同的任务中,ChatGPT-4 的表现非常出色。我向它输入了两个45分钟视频的字幕,并且它轻松地完成了转换任务,处理的单词总数达到了大约17,408个。

还需注意的是,GPT-4 Turbo 能够在其上下文窗口中处理高达128,000字的大量文本。

在进行文本摘要的对比时,我们来看看 Gemini Pro 和 GPT-4 的表现如何。

我所设定的任务是将 YouTube 字幕转换成一篇文章。如下图所示,Gemini Pro 采取了对字幕进行直接摘要的方式。

另一方面,虽然 ChatGPT-4 的输出内容较短,但其格式清晰且结构良好。

值得一提的是,Gemini Pro 实际上能够直接对 YouTube 视频内容进行摘要。鉴于谷歌是 YouTube 的所有者,这一功能并不令人意外。而且,其生成的摘要质量相当不错。

然而,特别是在结合了 VoxScript 插件之后,GPT-4 在摘要 YouTube 视频方面显示出了一定的优势。它生成的摘要包含有清晰的开头、结构化的中间部分以及一个结尾,使得整个内容更加连贯和易于理解。

从冗长文本中提取关键信息是对任何大型语言模型(LLM)的一次真正考验。到目前为止,在这一领域中,Gemini Pro 略显不及 GPT-4。尽管如此,Gemini Pro 对 YouTube 内容的摘要能力仍然是一个实用的特性。由于 OpenAI 缺乏直接访问 YouTube 的途径,这可能使 Gemini Pro 保持其独特性。

在11月,OpenAI 对 ChatGPT 进行了重要更新,将其训练数据扩展到了2023年4月,并计划通过持续更新来保持数据的时效性。当我询问 Gemini Pro 关于其最后一次更新的时间时,它的回答含糊且称这是“机密信息”。

出于好奇,我测试了它们对于一个较新话题的掌握程度:如何在 ChatGPT 中创建自己的 GPT 模型。Gemini Pro 给出了不错的回答,但这让我产生了疑问:它的回答是基于自身的训练数据,还是依赖于互联网上的数据。

相比之下,如下图所示,GPT-4的训练数据中并不包含如何创建GPT的相关信息。

GPT-4 的网络功能使其能够对同一个问题做出更详细和准确的回答,在这一领域超越了 Gemini Pro。

数学技能是大型语言模型推理能力的关键组成部分。以一个具体的不定积分问题为例,这个问题源自加州大学伯克利分校,网上的资料显示它有四个正确答案。

Gemini Pro 在尝试解决这个问题时表现有所不同。在其提供的首个选项输出中,它遗漏了其中一个正确答案。

有趣的是Gemini Pro 在其第二个输出选项中,还多出一个答案,哪位小伙伴能帮忙解释是否这个答案是否正确。

然而,在第三次尝试中,Gemini Pro 的答案完全偏离了正确答案。

相比之下,GPT-4 则展现了其能力,成功提供了正确标准答案。

这个测试清晰地展现了 GPT-4 在数学和推理能力方面相比于 Gemini Pro 的优势。

在复杂的网络搜索任务中,Gemini Pro 的表现让我印象深刻!我用以下特定的请求来测试它的能力

为一家虚构的消费品公司研究可持续包装解决方案。请识别前三家可持续包装供应商,并提供一份关于他们的产品、定价和环境影响的报告。

在这项任务中,Gemini Pro 的表现非常出色。

特别值得一提的是,Gemini Pro 能够将信息高效地总结成表格格式,并且这些表格可以轻松地下载到 Google 表格中,这一功能极为便捷

另一方面,在这一领域,GPT-4 的本地网络搜索能力显得不足。即便是在使用了 WebPilot 插件后,GPT-4 也未能达到 Gemini Pro 的表现水平,它在生成表格和访问某些数据(例如价格信息)方面存在一定的局限。

在网络搜索这一方面,Gemini Pro 凭借谷歌强大的搜索引擎背景,对 GPT-4 构成了实质性的挑战。这对微软和 OpenAI 来说是一个警示,提示他们需要在网络搜索能力方面进一步提升。

Gemini Pro 标志着相比其前身 Bard 的一次重大飞跃。虽然 Bard 在特定场合(如地图阅读)有其用途,但 Gemini Pro 提供了更多功能。尽管它还未能达到 GPT-4 的水平,但在几个关键领域已明显超越了 GPT 3.5。

一个关键的问题是:Gemini Ultra 与 GPT-4 相比将会表现如何?我认为,它可能仍会稍逊于 GPT-4。

最新文章
谷歌的搜索建议XHR请求
是一种通过XMLHttpRequest对象发送异步HTTP请求的技术。XHR代表XMLHttpRequest,是一种在后台与服务器进行数据交换的技术,可以在不重新加载整个页面的情况下更新部分网页内容。XHR请求的优势包括:XHR请求的应用场景包括:腾讯云相关产品
解锁TikTok尾部达人力量:品牌信任在海外市场的构建之路
在数字营销浪潮中,达人的影响力不断增加。相较于头部达人,尾部达人粉丝数量较少,但粉丝群体更加精准,对其内容的信任度和粘性也更高。通过真实、透明的内容创作和互动,TikTok尾部达人成为信任的“传递者”,为品牌出海奠定了坚实的基础
短剧小程序开发定制,付费追剧,广告解锁支持iaa/iap混合变现
标题:短剧小程序开发定制:全方位服务,助力您的付费追剧平台一臂之力正文:在当今移动互联网时代,短剧内容因其形式多样、节奏紧凑、易于消费而广受用户喜爱。作为一家专业的网络科技公司,南阳迈特网络科技有限公司致力于为有志于进入短
日韩精品一区二区三区老鸦窝近日发布最新合作项目引发广泛关注双方将共同开发新技术推动产业升级并加强市场竞争力
  日韩精品一区二区三区老鸦窝近日发布最新合作项目,引发了广泛关注。双方将共同开发新技术,推动产业升级,并加强市场竞争力。这一消息不仅在业内引起热议,也吸引了众多网友的讨论和期待。  日韩两国在科技领域一直保持着紧密的合作
黑神话悟空推荐配置要求 黑神话悟空高配低配介绍
黑神话悟空正在持续预热中,作为一款万众瞩目的游戏,很多玩家都已经进行了预购,但是也有不少人看了pv之后,担心自己的设备无法正常运行游戏,也有玩家很好奇开启最高画质之后的黑神话需要什么配置来支撑,今天小编就来给各位来看看具体的
【省300元】华为NAS存储
华为家庭存储配备,可自行另配硬盘,硬盘接口采用SATA 3接口,最大支持20TB+20TB存储空间。NAS内置AI算力,能够根据不同维度进行图片视频整理。支持自然语义搜索,帮你找到所需内容。同一账号下能够快速读取文件,打破空间的约束。家庭存储
无货源一件代发违法吗(告诉你无货源一件代发怎么做)
无货源一件代发,比较适合没有资金和货源的卖家们,但是,很多卖家也知道淘宝现在的规则也是越来越严了,如果是做一件代发违法吗?因为,这些年因为违规被封店铺的商家也不少,所以,大家的担心也不无道理。一、无货源一件代发违法吗?其实,
怀化智能锁24小时售后服务热线电话号码统一报修(人工客服) - 焦点 - 百科知识-蓝心网
总之,选购一把好的门锁,需要综合考虑多种因素,从锁芯级别、智能功能、材质、设计、安装和维护等方面进行权衡。只有这样,才能确保家门的安全,为家人创造一个霍邱的居住环境。闪电指智能门锁,作为国产智能锁代表品牌之一,值得考虑。重
祛痘印排行榜第一名!揭晓十大高性价比祛痘淡印品牌
祛痘印排行榜第一名!揭晓十大高性价比祛痘淡印品牌战痘5年!走了不少弯路才发现原来祛痘祛痘印这么简单! 选对产品真的很重要! 听我的!反复长痘、去不掉黑红痘印、用很多祛痘产品觉得没用或者上脸刺激的……千万要认真看看这篇祛痘好物
相关文章
推荐文章
发表评论
0评