IBM Cloud 再陷宕机危机:两小时瘫痪,五个月内第四次重大中断

最近的两小时中断影响了全球 27 项服务,促使专家质疑企业混合云策略中控制平面的弹性。
新闻资讯 IBM 云服务
2025-08-14 17:15:05  |   作者:开源爱好者  |   来源:

IBM Cloud 再陷宕机危机:两小时瘫痪,五个月内第四次重大中断

最近的两小时中断影响了全球 27 项服务,促使专家质疑企业混合云策略中控制平面的弹性。
新闻资讯 IBM 云服务
2025-08-14 17:15:05
作者:开源爱好者
来源:

IBM Cloud 周一再次遭遇重大服务中断,导致企业客户无法使用关键资源超过两个小时,这是自 5 月以来的第四次重大宕机事件。

最新一次故障发生在世界标准时间(UTC)12:59,持续 2 小时 23 分钟,影响了全球 10 个地区的 27 项服务。根据事件报告,IBM 将其归类为“一级严重性事件”(公司最高警报级别),客户会遇到“服务中断、性能下降或无法访问 IBM Cloud 服务”等问题。

367.png

此次中断延续了一个已为人熟知的模式:大范围的身份验证失败,导致用户无法访问 IBM Cloud 控制台、命令行界面或 API。报告补充称,恢复工作于 UTC 时间 14:09 完成,IBM 建议受影响客户清除浏览器缓存并重试登录。

反复的故障暴露更深层次问题

周一的中断是 2025 年困扰 IBM Cloud 的一系列身份验证相关故障中的最新一次。该公司在 5 月 20 日(持续 2 小时 10 分钟)、6 月 3 日(超过 14 小时)和 6 月 4 日(2 小时 25 分钟)均发生过类似事件,每次都出现跨多个区域的登录失败。

行业分析师指出,这一模式反映了 IBM 控制平面架构——负责管理用户访问、服务编排和系统监控的关键基础设施层——存在根本性弱点。

Greyhound Research 首席执行官兼首席分析师 Sanchit Vir Gogia 表示:“IBM Cloud 反复出现的身份验证与登录故障并非孤立的应用层问题,而是系统控制平面脆弱性的体现,动摇了云平台所承诺的弹性。”

6 月份的故障尤为严重,其中一次影响了 54 项核心服务,包括虚拟私有云、DNS、身份管理、监控系统以及至关重要的支持门户。这导致客户无法提交支持工单,即便其工作负载在技术上仍能运行,但已无法管理。

企业运营风险加剧

对企业客户而言,这些中断造成的运营瓶颈远非短暂不便。现代企业依赖持续部署、自动化扩展和实时监控——而这些均需要对云管理界面的持续访问。

Everest Group 业务总监 Kaustubh K 表示:“云服务提供商的任何重大中断都可能迅速削弱企业信任,这凸显了稳健透明的服务等级协议(SLA)及可验证的补救措施对维护信誉至关重要。若服务承诺无法兑现,频繁的中断甚至可能促使企业重新评估与供应商的合作关系。”

鉴于 IBM 的市场地位,这一时机尤为棘手。Statista 数据显示,亚马逊云服务(AWS)占据全球云基础设施市场 30% 份额,微软 Azure 占 21%,而 IBM Cloud 虽在混合云领域投入大量资金,却依然难以突破 2% 的市场占有率。

混合云战略承压

IBM 将其云计算未来押注于混合架构,定位于为需要整合本地系统与公共云资源的企业提供解决方案。

然而,控制平面的反复故障正在动摇这一战略定位。Gogia 指出:“IBM Cloud 作为混合云领导者的定位,建立在其具备超越超大规模云服务商的固有弹性优势这一假设之上。但现实是,平台级控制平面的密集性故障直接削弱了这一认知。”

分析人士强调,当身份管理、DNS 和监控系统等核心治理功能成为全球单点故障时,混合架构的弹性优势将荡然无存。

呼吁新的架构标准

业内专家认为,这些事件凸显了企业在评估云提供商和设计自身系统时,需要进行根本性的思路转变。

Kaustubh K 表示:“反复发生的控制平面中断,暴露了共享平台依赖关系的架构脆弱性。CIO 必须将区域隔离的 IAM、分布式身份网关以及控制平面弹性 SLA 作为供应商评估的硬性要求。”

Gogia 建议企业在采购控制平面时,应像采购计算和存储层一样严格,要求明确的故障域文档、清晰的控制台与 API 响应 SLA,以及带外管理访问机制。

他主张采用“多控制平面架构”,确保单一供应商的管理层故障不会阻止关键工作负载运行——这比传统多云策略(仅分散工作负载但集中业务流程)更进一步。

对受监管行业的冲击

这种故障模式对医疗、金融和政府等受监管行业尤其敏感,因为这些行业的运营中断可能引发合规调查,并促使董事会重新评估供应商关系。

Kaustubh K 强调:“企业应通过依赖关系映射、灾难恢复自动化和弹性架构设计,将韧性嵌入系统,从而在多云时代保持控制平面的连续性。同时,必须将 IAM 视为 Tier-0 级别的基础设施。”

虽然周一的事故较此前部分中断更快得到解决,但身份验证故障的反复出现,表明这是一种尚未解决的系统性问题,而非孤立事件。

IBM 尚未回应有关近期宕机事件之间潜在关联,以及其为防止未来再次宕机而采取的具体措施的置评请求。