Amazon S3의 대규모 장애는 인위적 실수가 원인

미국 Amazon.com의 클라우드 사업 Amazon Web Services(AWS)는 “Amazon Simple Storage Service(S3)”서비스에서 발생한 대규모 장애에 관한 조사 보고를 현지 시간 2017년 3월 2일 공개하면서 인위적 실수가 원인이었음을 밝혔다.

S3의 장애는 미국 버지니아 주 북부의 “US-EAST-1” 지역에서 태평양 표준 시간 2월 28일 오전 9시 37분에 발생했다.

AWS 보고에 의하면 당시 S3의 결제 시스템의 문제를 수정하기 위해서 S3팀이 작업을 벌였다. 결제 시스템의 서브 시스템을 구성하는 몇 대의 서버를 정지할 목적으로 특권을 인정 받은 팀 멤버가 절차서에 따라서 명령을 입력했으나 명령 입력에 실수가 있어서 의도했었던 것보다 많은 서버를 정지시켰다. 다른 중요한 서브 시스템에도 영향이 확산되면서 시스템 전체를 재 시작해야 했다.

S3은 고객에게 거의 영향을 주지 않으면서 시스템 오류나 정지에 대응하도록 디자인이 되어 있으며 지금까지 차질 없이 운용되고 있었다. 시스템 전체의 재 기동은 경험이 없었는데 요 몇 년의 급성장으로 시스템이 거대화했기 때문에 “예상 이상으로 재 기동에 시간이 필요했다”라고 AWS는 설명했다.

다시 기동하는 동안 S3는 리퀘스트를 처리할 수 없는 상태에 빠졌다. S3의 API가 이용 불가능했기 때문 이 범위 내의 다른 서비스도 영향을 받았다.

오후 1시 54분 S3는 정기 운용에 복귀하고 다른 서비스도 복구하기 시작했다. 또한, 가동 상태를 표시하는 대시보드의 관리 콘솔도 S3를 사용했기 때문에 오전 11시 37분까지는 대시보드의 상태 표시도 갱신되지 않았다.

AWS는 고객들에게 사과하고, 향후 개선을 약속했다. 서버를 정지할 때 사용하는 도구를 수정하고 좀 더 시간에 여유를 가지고 작업하도록 했다. 또 최소한 수준의 서브 시스템이 정지하도록 안전 대책을 추가했다. 게다가 대시보드의 관리 콘솔을 복수의 지역에서 가동시켰다.

출처: http://itpro.nikkeibp.co.jp/atcl/news/17/030300696/

이 글은 2017-03-06에 작성되었습니다.

Tagged:
번역
aws