近日,OpenAI 表示,该公司部署一项新的遥测服务导致周三(12 月 11 日)其所有服务中断了三个小时。
OpenAI 在一份事件分析报告中表示,该公司的 ChatGPT、 面向开发人员的 API 和视频生成器 Sora 等服务在下午 3 点 16 分至晚上 7 点 38 分这段期间出现了性能降级或完全不可用的情况。
据这份报告显示,这起事件归因于一项新的遥测服务导致 Kubernetes 控制平面不堪重负,并在该公司的关键系统中造成了连锁反应式的故障。
该公司在这份报告中表示:“这一事件是我们在内部进行变更、以便针对整个系统部署新的遥测服务导致的结果,并不是安全事件或最近的新品发布造成的。”
据报告显示,OpenAI 部署了新的遥测服务以提高可靠性,该服务将用来收集详细的 Kubernetes 控制平面度量指标,并提升该公司深入了解系统运行状态的能力。
报告显示,在工作人员部署遥测服务仅过了 4 分钟后,就发生了中断事件,原因是该遥测服务的覆盖范围很广泛,这项新服务的配置无意中导致了执行资源密集型的 Kubernetes API 操作,这类操作使 Kubernetes API 服务器不堪重负,从而导致 OpenAI 大多数大型集群中的 Kubernetes 控制平面瘫痪。
具体来说,新的遥测服务影响了OpenAI 的 Kubernetes 操作,包括该公司的许多服务用于 DNS 解析所依赖的一项服务。
DNS 解析将 IP地址转换成域名,这是你能够输入“Google.com”而不是“142.250.191.78”的原因。
OpenAI 写道,OpenAI 使用 DNS 缓存“延迟了洞察可见性”,以及“在全面深入了解问题之前允许部署遥测服务继续进行”,从而使问题复杂化。DNS 缓存保存了先前查找的域名(比如网站地址)及其对应的 IP 地址方面的信息。
OpenAI 在几分钟内迅速发现并确定了这个问题,随即开始修复。
该公司正在实施几项措施并确定这些措施的轻重缓急,以防止类似事件的发生,包括改进分阶段部署的工作,更有效地监控基础设施方面的变化,以及推行新的机制,以确保 OpenAI 工程师在各种情况下都能够访问该公司 的 Kubernetes API 。
报告声称:“我们为这起事件对我们的所有客户造成的影响表示道歉, 包括从 ChatGPT 用户、开发人员到依赖 OpenAI 产品的公司企业。我们没有达到自身的期望。”
今年 6月,OpenAI 所有与 ChatGPT 相关的服务都出现了持续 3 小时的中断,而在该公司于 2023年 11 月高调宣布开设一家 GPT 商店两天后,ChatGPT 出现了短暂但“严重”的中断。
12 月 4 日,OpenAI 声称 ChatGPT 现在每周有 3 亿活跃用户,每天有 10 亿条用户信息通过这款 AI 聊天机器人发送,在美国有 130 万开发人员基于 OpenAI 进行开发。
OpenAI 的目标是在明年达到 10 亿用户。
云头条将故障报告投给 ChatGPT,它对该故障的比喻如下:
一个繁忙的城市交通系统突然新增了一个“实时路况检测系统”,目的是让交通管理更高效。然而,这个系统却意外要求每辆车都向中央服务器频繁发送详细的路况数据。由于城市里的车流量太大,这些请求在短时间内淹没了交通指挥中心(Kubernetes控制平面)。结果,交通信号灯停止工作,整个城市交通陷入瘫痪。
虽然街道上的车子(数据平面)理论上可以继续行驶,但没有红绿灯的指挥,它们很快迷失了方向,造成全面的拥堵。等到缓过来,才能恢复交通秩序。这一切的根源在于“新系统”的设计没有考虑到规模效应,导致压力超出了指挥中心的承受范围。