Svmuu 뉴스 Coinbase는 2026년 5월 7일 발생한 대규모 서비스 중단 사건에 대한 사후 분석 보고서를 발표했습니다. 이번 장애는 약 8시간 동안 지속되었으며, 완전한 복구에는 약 12시간이 소요되었습니다. 이 기간 동안 거래, 입금, 출금 및 대부분의 핵심 서비스에서 이용 불가 또는 심각한 성능 저하가 발생했습니다. Coinbase 회사는 장애 원인이 AWS us-east-1 리전의 특정 가용 영역(use1-az4) 데이터 센터 냉각 시스템 내 다수의 냉동기가 동시에 고장 나면서 랙 열 보호 기능이 작동해 시스템이 중단되었고, 이로 인해 EC2 인스턴스와 EBS 볼륨이 오프라인 상태가 되어 여러 인터넷 서비스에 영향을 미쳤다고 밝혔다. 복구 과정에서 Coinbase의 거래 매칭 엔진은 단일 AWS 데이터 센터에 배포된 클러스터 아키텍처의 대부분 노드를 상실하여 쿼럼을 잃게 되었으며, 긴급하게 코드 조정과 새로운 노드 그룹 재구성을 통해 운영을 재개하고 복구 과정에서 단계적으로 시장 거래를 재개해야 했습니다. 또한, AWS 관리형 Kafka(MSK) 서비스에서 제어 플레인 장애가 발생하여 파티션 마스터 노드가 자동으로 재선출되지 못했고, 이로 인해 호가, 수수료 및 일부 결제 및 데이터 스트림 시스템이 추가로 차단되어 전체적인 영향 범위가 확대되었다. Coinbase가 AWS 엔지니어링 팀과 협력하여 수동으로 파티션을 마이그레이션한 후, 시스템은 점차 정상화되었다. Coinbase 는 이번 사건이 가용 영역 간 자동 전환 능력과 호스팅 미들웨어 재해 복구 측면에서 미흡한 점을 드러냈다고 밝혔습니다. 회사는 지역 간 핫 스탠바이 아키텍처를 업그레이드하고 정기적인 장애 시뮬레이션을 강화할 예정이며, Kafka 시스템을 듀얼 가용 영역에서 트리플 가용 영역으로 마이그레이션할 계획입니다. 또한 AWS와 협력하여 근본 원인 해결 및 개선을 추진할 것입니다.