据 GitHub 的博客 报告,GitHub 作为一个领先的软件开发协作平台,在 2024 年 12 月经历了两次重大服务中断。这些事件导致其服务性能下降,影响了用户的访问和功能。
12 月 17 日事件
第一次事件发生在 2024 年 12 月 17 日,从 14:33 UTC 到 14:50 UTC。在此期间,GitHub 用户遇到了间歇性错误和超时,错误率平均为 8.5%,请求错误率峰值达到了 44.3%。中断影响了多项核心功能,包括登录、查看存储库以及管理拉取请求和问题。
根本原因被确定为由于计划中的维护导致 web 服务器过载,无意中导致实时更新服务失败。该服务对于向用户提供自动更新至关重要,而用户被迫手动刷新页面,这进一步加重了服务器的负担。GitHub 通过撤销维护更改并扩展服务来管理来自 WebSocket 客户端的增加流量,从而减轻了问题。
事后分析揭示了 GitHub 警报系统的缺陷,这导致了对事件影响评估的延迟。公司现在专注于增强监控和警报机制,以防止未来类似问题的发生。
12 月 20 日事件
第二个事件发生在 2024 年 12 月 20 日的 15:57 UTC 到 16:39 UTC 之间。这次中断被归因于 GitHub 的一家第三方服务提供商的部分中断,导致某些营销页面无法访问,用户尝试访问时出现 500 错误。然而,在此期间没有操作产品或服务区域受到影响。
服务提供商在 16:39 UTC 解决了这个问题,恢复了对受影响页面的访问。GitHub 目前正在探索改进错误处理的方法,并确保在未来中断事件中服务能够优雅降级。
GitHub 继续努力制定策略,以增强其基础设施的弹性和服务可靠性。用户可以在其 状态页面 上跟踪实时服务状态更新,并在 GitHub 工程博客 上了解更多正在进行的改进。
Image source: Shutterstock