AI大模型日报#0516：揭秘GPT-4o团队、盘点「字节 AI」过去一年、李飞飞解读“空间智能”

日期：2024-12-27 作者：4d92d 移动：http://ljhr2012.riyuangf.com/mobile/quote/59455.html

导读：AI大模型日报，爬虫+LLM自动生成，一文览尽每日AI大模型要点资讯！

目前采用“文心一言”（ERNIE 4.0）、“零一万物”（Yi-34B）生成了今日要点以及每条资讯的摘要。欢迎阅读！

《AI大模型日报》今日要点：近期，AI大模型领域成果显著，各大科技巨头及研究团队纷纷展示其最新进展。首先，OpenAI团队在18个月内成功推出全多模态模型GPT-4o，该模型标志着计算机使用方式的一次革命。其强大的图像生成能力令网友惊讶，甚至可“复现”OpenAI总裁讲课，生成的图像在风格、细节上高度一致，引发热议。同时，清华系团队也不甘示弱，开发出单细胞身份识别的大语言模型LangCell，结合单细胞RNA测序数据与自然语言处理技术，能高效准确识别细胞身份，并已入选ICML 2024，显示出学术界在AI大模型领域的深厚实力。此外，字节跳动也一次性曝光了九个大模型，涵盖理解、生成、语音识别、语音合成等多种能力，构建了完整的AI产品线，其豆包通用模型在市场上表现尤为突出，体现了企业在商业化应用方面的敏锐洞察力。另一方面，李飞飞在TED演讲中揭秘了她的创业方向“空间智能”，旨在让AI理解和互动3D空间，为机器人学习、医疗保健等领域带来新的创新点。蚂蚁集团也展示了其在AI大模型领域的布局，由徐鹏博士领衔的NextEvo部门负责研发的蚂蚁百灵大模型，已判断原生多模态为技术方向，持续投入研发，并探讨了多模态与原生多模态的关键区别，以及技术创新与商业模式的平衡。综上所述，AI大模型领域正迎来前所未有的发展机遇，各大团队和企业竞相展示其技术实力与应用前景，为人工智能的未来发展注入了强大动力。

标题: 18个月，OpenAI这支团队搞出了GPT-4o

摘要: GPT-4o 的成功发布归功于 OpenAI 团队，特别是 Prafulla Dhariwal 的远见、才华、信念和决心。Dhariwal 是 Omni 团队的负责人，该团队推出了 GPT-4o，这是一个全多模态模型，标志着计算机使用方式的一次革命。OpenAI 的 CEO 和联合创始人对 Dhariwal 和其他团队成员的努力表示赞赏，认为他们共同推动了人工智能技术的发展。
网址: 18个月，OpenAI这支团队搞出了GPT-4o | 机器之心

标题: 识别细胞也能用大模型了！清华系团队出品，已入选ICML 2024 | 开源

摘要: 科技记者报道：清华系团队开发出单细胞身份识别的大语言模型LangCell，该模型结合了单细胞RNA测序数据和自然语言处理技术，能够高效准确地识别细胞身份，并具有强大的零样本分析能力。LangCell模型已在ICML 2024上被录用，并已开源。
网址: 识别细胞也能用大模型了！清华系团队出品，已入选ICML 2024 | 开源 | 量子位

标题: GPT-4o再秀神操作，“复现”OpenAI总裁讲课，网友当真了

摘要: GPT-4o展示了强大的图像生成能力，网友对其表现感到惊讶，甚至误以为是已故的DALL-E技术。OpenAI总裁Greg在推特上展示了GPT-4o生成的图像，这些图像在风格、细节和光照上高度一致，以至于一些网友认为这是真实人物的讲课视频。尽管有人对模型的能力提出质疑，但GPT-4o的发布让更多人能够探索其多模态处理能力，并且在上下文理解和情景对话方面表现出色。OpenAI的Omni团队负责人Prafulla Dhariwal感谢团队成员的努力，并透露GPT-4o是他们推出的第一个模型，团队成员在图像和音频生成、数据准备、集成、训练以及视频理解等方面做出了贡献。OpenAI的CEO Dmitry Shapiro也对GPT-4o的工作表示赞赏，认为它将改变我们使用计算机的方式。
网址: GPT-4o再秀神操作，"复现"OpenAI总裁讲课，网友当真了 | 量子位

标题: 博士论文 | 神经网络的结构与表示 147页

摘要: 神经网络在人工智能中占据主导地位，研究者们致力于理解其内部工作原理。一种方法是将其视为代表人类可理解特征的模块化结构。通过使用图聚类工具，可以识别网络中内部连通性强但外部连通性弱的神经元组，这些组可能是模块化的关键。经过训练的网络通常比随机初始化的网络具有更强的可聚类性，并且相对于具有相同权值分布的随机网络也表现出可聚类性。促进集群性的因素和新的方法正在被研究。模块化对于理解神经网络的功能相关性至关重要，我们关注局部专门化，即网络的某些部分执行与整体任务相关的子任务。使用图聚类算法产生的神经元组，结合解释单个神经元的技术，可以操作代理，如重要性（反映神经元集对网络性能的价值）和一致性（反映神经元与输入特征的一致性）。我们的研究发现了重要且连贯的神经元组，但并非所有组都如此。最后，我们使用可解释性工具分析了基于游戏CoinRun训练的神经网络，发现网络在测试损失较低的情况下，仍可能错误地预测分布之外的奖励，这表明需要更好的工具来理解泛化行为，并激励开发这些工具。论文题目：《神经网络的结构与表征》，作者Daniel Filan，预计2024年博士论文，加州大学伯克利分校。
网址: 博士论文 | 神经网络的结构与表示 147页 - 智源社区

标题: 一次曝 9 个大模型，「字节 AI」这一年都在做什么？

摘要: 字节跳动的大模型家族，包括了九个模型，这些模型是基于市场需求和技术发展而开发的。其中，豆包通用模型 pro 是主力模型，提供强大的理解和生成能力，适用于问答、总结、创作等多种场景。豆包通用模型 lite 则是一款轻量级模型，具有较低的 token 成本和延迟，适合需要灵活经济模型的企业。此外，还有语音识别、语音合成、文生图等多种模型，这些模型在特定领域具有专业能力。豆包和扣子是字节跳动基于大模型开发的两款主要产品。豆包 App 是一款基于豆包大模型的 AI 对话助手，它在苹果 App Store 和各大安卓应用市场中的下载量在 AIGC 类应用中排名第一，拥有超过 800 万个智能体和 2600 万的月度活跃用户。扣子则是一个 AI 应用开发平台，用于帮助开发者快速构建和部署 AI 应用。火山引擎作为字节跳动的云服务平台，通过迭代和市场验证，使得豆包大模型成为国内使用量最大、应用场景最丰富的大模型之一。火山引擎总裁谭待表示，降低模型推理价格是推动大模型进入价值创造阶段的关键因素。豆包大模型的主力模型在企业市场的定价仅为 0.0008 元/千 tokens，比行业平均水平便宜 99.3%。字节跳动在开发大模型和 AI 应用时，注重根据用户反馈和数据进行产品优化，这种基于数据驱动的产品开发模式，使得字节跳动的产品能够更好地满足用户需求，并在市场竞争中占据优势。
网址: 一次曝 9 个大模型，「字节 AI」这一年都在做什么？ | 极客公园

标题: 李飞飞揭秘创业方向“空间智能”：视觉化为洞察，看见成为理解，理解导致行动

摘要: 李飞飞在TED演讲中揭示了她的创业方向“空间智能”，这是一种旨在让AI理解和互动3D空间的技术。她认为这是解决人工智能难题的关键，能够推动机器人学习和医疗保健等领域的创新。李飞飞回顾了生物视觉的进化，以及计算机视觉在过去十年的快速发展，并展示了她的团队在开发3D空间模型和模拟环境方面的最新成果。她强调了空间智能在未来医疗保健中的应用潜力，如帮助机器人执行任务和通过脑电波控制机器人。李飞飞认为，空间智能将使AI更加智能和有感知，从而与人类共同创造一个更美好的世界。
网址: 李飞飞揭秘创业方向"空间智能"：视觉化为洞察，看见成为理解，理解导致行动 | 量子位

标题: 蚂蚁百灵大模型一号位：GPT-4o发布不意外，原生多模态方向已明

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行