새벽 3시에도 불시 서버 불능... 대응 능력 점검
구글도 지진까지 가정... DiRT 훈련 프로그램 가동
‘카카오 사태’로 구글, 넷플릭스 등 글로벌 플랫폼 기업들의 재난 및 위기 대응 방식이 더욱 주목을 받고 있다. 화재 등 재난 발생 시 백업 서버 가동은 물론 데이터 이중화는 기본으로 갖춘 것은 물론 마치 ‘민방위 훈련’처럼 비상 상황을 일부러 연출해 장애 복구 등 문제 해결 매뉴얼이 제대로 작동되는지 점검하고 있는 것으로 알려졌다.넷플릭스엔 업무 시간뿐 아니라 일요일 새벽 3시에도 불시에 서버 불능 상태 등 돌발 상황을 일으킬 수 있는 훈련 프로그램이 가동되고 있다. 물론 화재나 지진 등 재난 상황에도 서비스가 중단되지 않도록 치밀한 다중화 체계를 갖춰 놨지만, 예측하지 못한 사태에도 대응할 능력을 키우고 점검하기 위해서다. 넷플릭스는 이런 프로그램을 ‘원숭이 부대’라고 이름 지었다. 구글과 메타 등 대부분의 글로벌 빅테크 기업들은 넷플릭스처럼 자체 훈련 프로그램을 도입해 운영하고 있다. 최근 ‘카카오 먹통 사태’와 같은 일이 발생하지 않게 하기 위한 ‘사이버 교관’인 셈이다.
아마존 클라우드 컴퓨팅인 아마존웹서비스(AWS)를 기반으로 운영되는 넷플릭스는 2015년 AWS 서버 문제로 잠시 장애를 경험한 뒤 원숭이 부대를 고안했다. 넷플릭스의 기술을 소개하는 ‘넷플릭스테크블로그’는 원숭이 부대를 “치밀한 구조 설계에도 불구하고 극히 드물게 일어나는 불능 상황에서 실제로 살아남을 수 있는 능력을 끊임없이 시험하기 위해 만들었다”며 “고속도로에서 펑크 난 타이어를 처리할 능력이 있는지를 확인하는 방법은 일주일에 한 번씩 타이어에 구멍을 내고 교체해 보는 것”이라고 설명했다.
구글 역시 클라우드 백서를 통해 재해 발생 시에도 서비스와 사업 운영이 계속될 수 있도록 매년 전사 차원의 ‘DiRT(Disaster Recovery Testing·재해 복구 테스트)’를 시행한다고 소개했다. 의도적으로 장애를 일으켜 주요 시스템의 취약점을 발견하고 실제 장애가 발생하기 전에 보완하기 위해 개발한 훈련 방식이다. DiRT는 강제로 서비스가 불능 상태가 되거나, 핵심 인력이 없는 상황, 지원 시스템 차단, 통신이나 물리적 접근이 제한되는 상황을 부여한다. 또 관련 인력들이 실제 가동 중단, 정전, 인재나 자연재해 발생 등의 극단적인 상황을 미리 겪어볼 수 있게 만들어져 있다.
메타 역시 전직원이 참여하는 특별한 재해 복구 훈련 프로그램을 운영하고 있다고 밝혔다. 다만, 훈련 프로그램의 이름과 구체적인 내용은 대외비에 해당된다며 공개하지 않았다. 마이크로소프트(MS)도 메타와 비슷한 훈련 프로그램을 운영하는 것으로 알려졌다.
이번 사고 대응에 실패하긴 했지만 카카오도 자체 재난 훈련 프로그램을 운영하고 있다고 설명했다. 네이버 관계자 역시 “평소 재난에 대비한 정기 훈련을 해 왔고, 이번에도 훈련된 절차대로 빠르게 대처해 피해를 최소화할 수 있었다”고 말했다.
Copyright ⓒ 서울신문. All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지