近日,微软Azure云平台的一项关键服务——Azure Image Builder(AIB)出现严重故障,导致大量用户无法正常启动容器实例,镜像构建任务大面积中断。据不完全统计,受影响区域覆盖北美、欧洲及亚太多个数据中心,持续时长超过12小时,成为该服务上线以来最严重的功能异常事件之一。

故障始末:从任务提交到容器启动的“断裂”

Azure Image Builder是一项用于自动化创建、定制和管理虚拟机镜像的托管服务,广泛应用于DevOps流水线、CI/CD流程及大规模环境部署。此次故障的核心表现为:当用户通过AIB提交镜像构建任务后,系统无法成功启动所需的容器实例,任务状态长期停留在“正在启动”或“挂起”阶段,直至超时失败。

多名用户在Azure状态页面及技术论坛反馈,AIB日志中反复出现“Container instance creation failed”或“Timeout waiting for container to start”等错误提示。部分用户尝试重新提交任务、更换区域或调整资源规格,但问题依旧存在。“我们团队的所有镜像构建流水线全部停摆,紧急部署计划被迫延迟。”一位北美地区的DevOps工程师在社交媒体上抱怨道。

影响评估:依赖深度波及广

由于Azure Image Builder与Azure Container Instances(ACI)及Azure虚拟网络等底层服务高度耦合,此次故障不仅影响了镜像构建本身,还间接拖累了依赖该服务的其他工作负载。例如,使用AIB进行Windows Server或Linux系统镜像定制的企业用户,无法生成合规的安全补丁镜像;采用AIB结合Azure DevOps实现自动化发布的团队,其CI/CD管道直接阻塞。

据微软Azure状态页面显示,受影响的区域包括美国东部、美国西部、西欧、东南亚等多个核心数据中心。截至发稿时,尽管部分区域已逐渐恢复,但仍有用户反映任务启动缓慢,且存在偶发性失败。第三方监控平台数据显示,AIB服务的可用性评分在故障期间一度跌至80%以下,远低于Azure承诺的99.9%SLA。

微软回应:确认底层容器运行时异常

微软在Azure状态页面发布初步声明,确认“部分区域的Azure Image Builder服务遇到容器实例启动失败的问题”。声明指出,问题根源在于底层容器运行时组件(Container Runtime)存在配置异常,导致AIB与ACI之间的调度交互出现错误。微软工程师团队已紧急部署修复程序,并逐步回滚引发问题的配置更改。

“我们正在监控恢复进度,并建议受影响的用户尝试使用其他可用区域运行任务,或暂时调整构建计划。”微软在声明中补充道。然而,对于需要特定区域资源(如数据驻留要求)的用户而言,跨区域迁移并非可行方案。

用户声音:透明度和补偿存疑

故障消息传出后,Azure用户社区反应强烈。一些用户批评微软缺乏实时沟通,尤其是故障初期状态页面更新缓慢,部分用户只能依赖第三方论坛或社交媒体获取信息。“我们在等待超过4小时后才看到官方状态更新,这对于生产环境来说是不可接受的。”一位欧洲用户表示。

此外,关于SLA补偿机制也引发讨论。根据Azure服务协议,若单次故障持续时间超过30分钟,用户可申请服务额度补偿。但多名用户指出,复杂的申请流程和模糊的细则常使补偿难以兑现。一位资深云架构师分析称:“AIB是相对较新的服务,其SLA定义可能不如核心计算服务清晰,这将给维权带来不确定性。”

技术反思与应对建议

此次事件为依赖云原生服务的企业敲响警钟。专家建议,针对关键镜像构建任务,应建立多区域冗余策略,避免单一区域故障导致全面停摆。同时,配置合理的重试机制与超时策略,或在本地搭建备用构建环境(如使用自建HashiCorp Packer等工具)作为兜底方案。

对于需要高可用性的用户,可考虑将AIB与其他服务(如Azure Image Builder for Virtual Machines)结合使用,或在工作流中引入状态监控与告警,以便第一时间察觉异常。

截至本文发稿前,Azure全局恢复了约90%的受影响的容器实例启动能力,但部分区域的残余问题仍在处理中。微软承诺将在48小时内发布完整的故障分析报告(PIR)。此次事件再次证明,即使是顶级云服务商也无法完全避免底层配置变更引发的连锁反应,而用户的应对能力与平台的可靠性同等重要。