AWS DNS 错误影响 DynamoDB,导致多个服务和客户出现问题
AWS DNS 错误影响 DynamoDB,导致多个服务和客户出现问题
作者:航标
来源:IT精选
|
星期一,亚马逊云服务 AWS 用户在其 US-EAST-1 区域迎来了不好的开局,DNS 问题导致 DynamoDB API 不可靠,这对许多 AWS 服务和客户造成了影响。
尽管事件的根本原因似乎仅影响了一个 API,并且仅在 AWS 众多云区域中的一个,但它涉及了一个关键的数据库服务,许多服务——包括亚马逊自有服务及其客户的服务——都依赖于此服务,在该区域以及其他区域都受到影响。 人工智能搜索公司 Perplexity 就是其中之一,报告称其“因 AWS 操作问题而发生了宕机”。虽然在线设计工具 Canva 并未明确指出 AWS 是问题的源头,但它报告称其底层云服务商出现了重大问题,导致其用户在同一时段内出现较高的错误率。 实时监控服务 Downdetector 也注意到,Venmo、Roku、Lyft、Zoom 和麦当劳应用的宕机“可能与 Amazon Web Service 的问题有关”。 错误率激增 AWS 首次在其服务健康状态页面上报告该事件,时间为美国太平洋时间 12:11,报告称:“我们正在调查 US-EAST-1 区域多个 AWS 服务的错误率和延迟问题。” 大约一个小时后,AWS 确认问题与 DynamoDB 端点有关,并称这一问题也影响了其他服务,半小时后,AWS 进一步报告:“根据我们的调查,该问题似乎与 US-EAST-1 区域的 DynamoDB API 端点的 DNS 解析有关。我们正在采取多条并行路径,加速恢复。” 此时,显然问题并不仅限于美国东海岸的用户或服务。 “依赖于 US-EAST-1 端点的全球服务或功能,如 IAM 更新和 DynamoDB Global 表,也可能出现问题。” AWS 表示。 美国太平洋时间 2:27,问题发生后约两个半小时,AWS 报告称已采取初步缓解措施,并建议客户重试失败的请求,警告称由于部分服务有积压,可能会出现额外延迟。 三小时后,AWS 报告称,依赖 US-EAST-1 的全球服务和功能已恢复,并承诺在获取更多信息时会提供进一步的更新。 云服务的依赖性 尽管这次宕机很快得到了修复,但它表明即使在云中,也存在可能对全球产生影响的单点故障。 几个月前,微软也遭遇了类似的尴尬,当时 Azure 的 US East 区域出现问题,波及到其他组织。在此之前,IBM Cloud 出现了一系列的宕机事件,令客户质疑自己当初的设计选择。第三次较短的宕机影响了 54 个 IBM Cloud 服务。 |

商情
