【产业信息速递】OpenAI官宣全新AI大模型GPT-4o：支持多模态视觉／语音对话

日期：2024-12-26 作者：shdns 移动：http://ljhr2012.riyuangf.com/mobile/quote/44001.html

（信息来源：爱集微）

人工智能（AI）公司OpenAI 5月13日宣布，将推出全新AI大模型GPT-4o，支持文本、图像、语音多模态交互，并有着即时、逼真的语音对话功能。业界解读，此举是OpenAI为保持业界领先地位的最新举动。

OpenAI表示，GPT-4o的字母“o”表示“omni”，是迈向更自然的人机交互的一步——即接受文本、音频、图像的任意组合作为输入，并生成文本、音频、图像任意组合输出。它可以在短至232毫秒的时间内响应音频输入，平均响应时间320毫秒，这与人类在对话中的响应时间相似。此外，GPT-4o在英文和代码上的性能与GPT-4 Turbo相匹配，在非英语文本上的性能显著提高，同时API速度更快、成本降低50%。官方表示，与现有AI大模型相比，GPT-4o在视觉和音频理解方面尤其出色。

OpenAI在官网发布视频对GPT-4o进行了演示，用户可以与ChatGPT对话，获得无延迟的即时回复，并且支持在ChatGPT说话时将其打断，这一特性此前被认为是高阶人工智能语音助手的标志。

OpenAI CEO萨姆·奥尔特曼在博客文章中写道，“这感觉就像电影中的AI一样……与电脑交谈从来没有像这样自然，而现实确实如此。”

研究人员在视频中展示了ChatGPT的新语音助手功能，在一次演示中，ChatGPT可利用视觉和语音功能同时与一名研究人员交谈，帮助他解决了纸上的一个数学方程式。

在另一个演示中，GPT-4o大模型为ChatGPT赋予戏谑对话的能力，当研究者表示心情很好，夸赞ChatGPT时，ChatGPT使用语音进行风趣回应。

OpenAI首席技术官米拉·穆拉提（Mira Murati）在活动上表示，新的AI大模型将免费提供，因为它比公司之前的大模型更具成本效益。她说：“GPT-4o的付费用户将比免费用户拥有更大的容量限制。”该公司表示，GPT-4o将在未来几周内在ChatGPT上推出。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行