gpt4o可在232毫秒内对音频做出反应
5月14日凌晨,OpenAI揭晓了最新的旗舰模型——GPT-4o,这一模型实现了音频、视觉及文本的即时推理能力。这标志着ChatGPT的功能得到显著扩展,现可支持50种语言的处理,展现了强大的多语言能力。
GPT-4o中的“o”象征着“全能”(omni),这个词根源于拉丁文“omnis”,在英文中常作为前缀,传达“全面”或“无所不包”的意涵。OpenAI的研发团队在演示中,首先以一种生活化的场景展现了GPT-4o的实时语音互动能力。面对演示者略显紧张的自述,ChatGPT迅速以鼓励和实用建议回应,展现出对人类情绪的细腻理解和适时的安抚能力。
技术层面,GPT-4o的响应速度惊人,仅需232毫秒即可对音频指令作出反馈,平均响应时间也仅为320毫秒,堪比人类的反应速度。它不仅能够迅速理解语言信息,还能从非言语的信号中捕捉情感,如通过急促的呼吸声辨识出紧张情绪,并给予相应的心理引导。gpt4o可在232毫秒内对音频做出反应。
另一项演示中,GPT-4o扮演起“在线辅导老师”的角色,通过摄像头接收手写方程图片后,分步骤提供解题思路而非直接给出答案,体现了其在教育辅助方面的潜力。
GPT-4o的发布引发了广泛赞叹,它对人类情感和语气的深刻理解,使得与之交互仿若与真人交流,让人不禁联想到电影《钢铁侠》中的智能助手“贾维斯”。