分享好友 最新动态首页 最新动态分类 切换频道
2023年最强悍的国产大模型,这几家排名前四
2024-12-26 15:20

ChatGPT火爆出圈带火了通用人工智能大模型,据不完全统计,截至2023年8月,仅国内发布的大模型就多达156个,在这些大模型中,表现优异者有,滥竽充数者也有。

就去年8月份新华社研究院企业发展研究中心发布的《人工智能大模型体验报告2.0》、《麻省理工科技评论》发布的大模型评测报告、12月新华社研究院企业发展研究中心发布的《人工智能大模型体验报告3.0》等来看,在当前的国内各主流大模型,综合能排名前四的分别有以下几个:

《人工智能大模型体验报告2.0》评测结果

《麻省理工科技评论》评测结果

《人工智能大模型体验报告3.0》评测结果

1.科大讯飞星火认知大模型

在《人工智能大模型体验报告2.0》中,以1013的综合能得分排名第一;

在《麻省理工科技评论》的大模型评测报告中,以81.5的得分荣获“最聪明”大模型称号;

在《人工智能大模型体验报告3.0》中,以1775的高分蝉联冠军,并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。

科大讯飞星火大模型发布于2023年5月6日,具备文本生成、语言理解、知识问答、逻辑推理、数学、代码、多模态等七大核心能力。其后,星火大模型多次升级迭代,目前最新版本为3.0。

10月份,为深入了解相关大模型的实际应用情况,国务院发展研究中心国研经济研究院开展了一项大模型行业应用能力测评研究,旨在评估大模型不同行业下的表现情况,分析潜在的应用场景和模式,对比我国大模型与国际一流大模型的行业表现,并在此基础上我国大模型产业高水发展的政策建议。

选取的大模型包括:星火大模型3.0版、ChatGPT、GPT-4和国内某大模型。

测评行业方面选择了知识密集型的生产服务业(服务与工业设计)、个化需求高的生活服务业(医疗、教育与零售)以及部分制造业(汽车工程、计算机),并基于临床执业医师资格考试、执业医师资格考试、统一职业资格考试、机动车检测维修专业技术人员执业资格、全国计算机技术与软件专业技术资格等权威职业资格考试构建了测评题目,以评估大模型在行业知识、技能掌握水、生产经营场景理解能力等维度的表现。

评测结果显示,星火大模型的综合能力达到国际一流水,所有7个测评行业中表现均大幅超越ChatGPT,并在部分行业优于GPT-4,在与国内某大模型的比较中也表现优异。

特别是在医疗、、教育行业,讯飞星火大模型表现格外突出,中文领域知识和语言理解能力已分别超越GPT4表现5.3%和4.1%,在教育领域基础能力的表现与GPT4的表现差距小于1%。

2.百度文心一言

在《人工智能大模型体验报告2.0》和《麻省理工科技评论》发布的大模型评测报告中,百度文心一言分别以1010、72.5的得分位列第二,能表现仅次于讯飞星火大模型。

据了解,百度文心一言发布于3月16日,主要能力包括文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成。

百度创始人、董事长兼 CEO李彦宏在发布会上表示,虽然文心一言在内测中并不完美,但是市场有需求必须推出来。

文心一言的技术原理是基于自然语言处理技术和深度学技术。它通过建立海量的语料库和深度学算法,学文章的句式、语言惯、修辞手法、篇章结构、时态语态等方面的知识,从而可以根据用户输入的关键词和需求,自动生成符合语法和语义的文章段落和句子。

可实现的功能与科大讯飞星火、商汤商量等通用大模型类似。不仅能和用户聊天,还可以快速生成处理各种各样的文本内容,如文章、诗歌、歌词、代码、图片等。

2023 年10 月 17 日,文心一言升级到4.0版本,理解、生成、逻辑、记忆四大能力得到提升。

3.商汤商量

在《人工智能大模型体验报告2.0》中和智谱AI-ChatGLM并列第三,综合得分983分,在《麻省理工科技评论》发布的大模型评测报告中排名第三,得分68.3。在《人工智能大模型体验报告3.0》中得分1746,排名第二,并在定量实测的情商维度上,位居全部10款大模型第一,与在定评估中,与讯飞星火大模型、智谱AI-ChatGLM一起选大模型市场未来象限。

“商量”的寓意是“商量商量,都能解决”。

“商量”一名,实际上点出了ChatGPT类模型的核心,即用户在多轮对话中,通过“魔法”调教,挖掘大模型解决问题的能力。

据悉,商汤商量于今年4月正式推出,是国内最早推出的基于千亿参数大语言模型的产品之一,并一直不断迭代更新。

围绕大模型及研发体系商汤以SenseCore商汤AI大装置为基础,建立了一套工程化的体系来支撑大模型的快速迭代,软件、系统和硬件都在以服务大模型快速迭代为目标做研发配合,实现了敏捷、低成本、大批次地做模型迭代,有助于商汤发现大模型最好、最有效的生产配方。

4.智谱AI-ChatGLM

在《人工智能大模型体验报告2.0》中和商汤商量并列第三,综合得分983分,在《人工智能大模型体验报告3.0》中得分1729,排名第三,在定评估中,与讯飞星火大模型、智谱AI-ChatGLM一起入选大模型市场未来象限。

ChatGLM 是由清华大学创新领军工程博士张鹏带领下的团队开发的一个开源且支持中英双语的类 ChatGPT 大语言模型,发布于3月18日。

10月27日,智谱AI在2023计算机大会(CNCC)上推出了全新的ChatGLM3大模型,这款最新的模型采用了创新的多阶段增强预训练方法,以实现更加充分的训练。

智谱AI的首席执行官张鹏亲自进行了新品发布,并通过实时演示展示了产品的最新功能。据介绍,通过使用更丰富的训练数据和优化的训练方案,ChatGLM3的能得到了显著提升。与之前的ChatGLM2相比,MMLU提升了36%,CEval提升了33%,GSM8K提升了179%,BBH提升了126%。

此外,ChatGLM3还进行了针对GPT-4V的迭代升级,引入了一些全新的功能。其中包括具备多模态理解能力的CogVLM-看图识语义,在10余个国际标准图文评测数据集上取得了领先水;代码增强模块Code Interpreter能够根据用户需求生成并执行代码,自动完成数据分析、文件处理等复杂任务;网络搜索增强模块WebGLM-接入搜索增强,能够自动查找互联网上与问题相关的资料,并在回答时提供参考的相关文献或文章链接。

小结:

尽管2023年,国内大模型发展突飞猛进,涌现出不少标杆产品,在行业应用方面表现优异,但我们也必须看到,人工智能技术的发展是一个持续的过程,需要不断地进行技术研发和创新。

探索赋能不同行业场景的落地方式将成为我国大模型企业快速发展的方向,而行业应用价值也将成为评判大模型的核心指标。唯有出现成千上万个解决生产、生活真实需求的AI原生应用,大模型才能真正深入社会经济的各个角落,助力各行各业的产业升级,推动经济的快速复苏,深刻改变人们的生活方式。

据公开数据,全球范围内人工智能将持续高速增长,市场规模持续扩大,预计到2032年,全球人工智能市场规模将达到1.3万亿美元。

在充满活力和机遇的时代背景下,人工智能大模型的兴起将持续引领科技进步,无论是在技术创新、商业应用还是在产业变革的推动方面,大模型都将发挥作用。伴随着应用领域的不断扩展,为各产业发展带来新的可能。

最新文章
营销网站优化怎么做的
优化营销网站的过程涉及多方面的策略,以提高网站在搜索引擎中的排名、提升用户体验,并增加转化率。以下是一些关键步骤和策略:1. 关键词研究: - 使用工具(如Google Keyword Planner,SEMrush,Ahrefs)识别相关的、高搜索量的关键词。
让中国卖家赚更多的钱亚马逊的这场全球峰会为什么开在南京
这对一直称雄国际的亚马逊构成了不小的挑战。面对两大竞争对手,亚马逊被迫更新了对卖家的收费标准,对价格低于15美元的服装,收取佣金从17%削减至5%;价格在15美元至20美元之间的服装,佣金降至10%。会上,亚马逊发布了明年中国业务的战略
小红书推行“号店一体”,社区和商业化的博弈仍在持续
小红书正在进一步完善交易闭环。近日,小红书宣布,从8月2日起正式推行“号店一体”机制,建立新的账号体系和一系列政策。具体而言,“号店一体”调整生效后,将为小红书社区商业生态带来三个核心变化,包括账号体系、开店政策和账号与店铺
海外facebook帐号批发网,facebook 账号 购买
在当今数字化时代,社交媒体平台如Facebook已成为人们沟通和交流的重要工具。随着市场需求的增加,海外Facebook帐号批发网应运而生,成为许多企业和个人获取Facebook账号的便捷渠道。通过这些平台,用户可以快速购买到大量的Facebook账号,
阜新微信小程序自定义顶部导航栏颜色和透明头部
如果您在寻找阜新微信商城小程序、阜新商城小程序、阜新微信小程序的专家,您来对地方了!我们拥有20年的行业经验,能够为您的提供极佳的APP、阜新微信小程序、阜新商城小程序方案。今天应客户要求需要将阜新微信商城小程序导航栏的颜色成
西安微信小程序注册事项
说到微信小程序,可以说是这几年挺流行的。特别是因为小程序不需要下载任何软件,可以随身使用,非常方便。所以一旦上市,就受到很多朋友的喜欢。不过可能有朋友认为只有技术人员才能注册微信小程序。其实这个想法并不是特别正确,只要掌握
汽修工具品牌排行榜前十名每年变化大吗
汽修工具品牌排行榜前十名每年变化大吗?变化不算特别大。目前常见的前十名品牌有世达/SATA、博世/BOSCH、绿林/greener、史丹利/STANLEY、德力西/DELIXI、长城精工、捷科/JETech、宝工/Pro’sKit、得力工具、钢盾/SHEFFIELD 。像世达,它是
使用 Python 爬虫抓取汽车品牌市场数据:销量、广告与消费者反馈
在现代商业环境中,数据已经成为最重要的资产之一,尤其在汽车行业。汽车制造商、经销商以及广告商都依赖于市场数据来优化他们的营销策略、产品开发和品牌定位。对于研究汽车行业的市场趋势和消费者反馈,抓取不同汽车品牌的市场销量、广告
这一抹红色,是从未忘却的纪念
它是飘落在地球上的一根红飘带是贵州旅游打卡的新地标它是什么?全国首个以长征为主题的全域行浸式数字科技体验馆“红飘带”项目9259如果奇迹有颜色那一定是中国红那,这样的红色你见过吗?它取自赤水河边的泥岩之色象征长征的艰辛历程和革
百度推广和安全联盟认证已被取消,现为百度信誉V认证
目前,在百度搜索框中输入某些关键词并搜索到一些自然网站排名时,把鼠标移动到百度推广蓝色V认证上面,发现没有显示百度推广身份认证和安全联盟认证字样,而是显示V已经通过百度信誉认证。由此看来,百度已经将百度推广认证和安全联盟认证
相关文章
推荐文章
发表评论
0评