팬앤스타

카카오가 말하는 10월 15일 그날…"먹통사태 없도록 시스템 다중화"

  • 경제 | 2022-12-07 15:34

7일 이프 카카오 데브 2022서 '카카오먹통' 원인·재발방지책 발표
원인분석·재발 방지 대책·미래 투자 등 쇄신 약속


남궁훈 비상대책위원장 재발방지대책 공동 소위원장이 7일 이프 카카오 데브 2022 행사에서 발표하고 있다. /이프 카카오 캡쳐
남궁훈 비상대책위원장 재발방지대책 공동 소위원장이 7일 이프 카카오 데브 2022 행사에서 발표하고 있다. /이프 카카오 캡쳐

[더팩트|최문정 기자] 127시간33분, 10만5116건. 지난 10월 15일 SK C&C의 판교 데이터센터 화재로 인해 발생한 카카오의 서비스 장애 시간과 접수된 피해사례다.

카카오가 한 달 반만에 데이터센터 화재로 인한 서비스 장애의 원인에 대해 입을 열었다. 카카오는 지난 10월 15일을 돌아보며 데이터센터와 작업도구의 이중화 부족과 장애대응 인력·자원의 부족 등 미흡한 부분이 있었다고 인정했다. 카카오는 이번 사태로 인해 드러난 운영 상의 문제점을 고쳐나가는 한편, 안전성을 강화한 자체 데이터센터 구축 등을 통해 강도 높은 쇄신을 약속했다.

카카오가 7일 '이프 카카오 데브 2022' 행사를 통해 지난 10월 15일 발생한 SK C&C 판교 데이터센터 화재로 인한 서비스 장애의 원인과 재발 방지 대책에 대해 종합적으로 밝혔다. 사진은 카카오 서비스 복구 타임라인. /이프 카카오 캡쳐
카카오가 7일 '이프 카카오 데브 2022' 행사를 통해 지난 10월 15일 발생한 SK C&C 판교 데이터센터 화재로 인한 서비스 장애의 원인과 재발 방지 대책에 대해 종합적으로 밝혔다. 사진은 카카오 서비스 복구 타임라인. /이프 카카오 캡쳐

카카오는 7일 온라인으로 '이프 카카오 데브 2022' (이하 이프 카카오) 행사를 열고, 지난 10월 발생한 '카카오 먹통' 사태의 근본적인 원인과 재발 방지책에 대해 발표했다.

이날 행사에는 남궁훈, 고우찬 비상대책위원장 재발방지대책 공동 소위원장, 이확영 원인조사 소위원장(그렙CEO), 이채영 비상대책위원회 재발방지대책 소위원장 부원장 등 4명의 연사가 등장했다. 카카오는 지난 10월 16일부터 화재 직후 출범한 대응 컨트롤타워를 비상대책위원회로 전환해 운영하고 있다. 비대위는 △원인 조사 소위 △재난 대책 소위 △보상 대책 소위 등 3개 분과로 구성됐다.

이날 남궁 소위원장은 "이중화 비롯해 인프라적으로 부족했던 모든 부분을 개선하기 위해 과거의 원인을 분석하고 현재에 대한 재발 방지 대책을 세우고 미래에 투자할 것"이라고 강조했다.

◆ 카카오, "이중화 서비스 미흡"

이확영 카카오 비상대책위원회 원인조사 소위원장은 카카오의 서비스 복구가 늦어진 이유에 대해 서비스 이중화가 미흡했던 부분이 있었다고 밝혔다. /이프 카카오 캡쳐
이확영 카카오 비상대책위원회 원인조사 소위원장은 카카오의 서비스 복구가 늦어진 이유에 대해 서비스 이중화가 미흡했던 부분이 있었다고 밝혔다. /이프 카카오 캡쳐

이날 이확영 원인조사 소위원장은 카카오의 서비스 장애가 길어진 원인에 대해 총 3가지를 들었다. 이 소위원장은 카카오 출신으로서, 과거 카카오톡을 비롯한 여러 서비스 개발 경험을 갖고 있는 인물이다. 이에 따라 카카오의 내부 사정을 잘 알면서도, 객관적인 제3자의 시각을 유지할 수 있어 원인조사를 맡아왔다.

카카오 서비스 복구 지연의 가장 큰 원인으로는 '데이터센터 간 이중화’의 부재가 꼽혔다. 특히 서비스를 운영하는 시스템에서 사용되는 캐시서버와 오브젝트 스토리지가 화재가 발생한 SK C&C 판교 데이터센터에만 설치돼 있어 카카오 로그인이나 카카오톡 사진전송 등 핵심 서비스 복구가 늦어졌다. 더군다나 하나의 데이터센터에서 장애가 발생할 경우, 다른 데이터센터로 트래픽을 전환해주는 시스템이 SK C&C 판교 데이터센터에만 설치돼 작업자가 일일이 수동으로 전환 작업을 해야 했다

이 소위원장은 "데이터센터 전체에 문제가 생기더라도 다른 데이터센터에 모든 시스템이 이중화돼 있었다면 빠르게 복구됐을텐데 일부 시스템이 SK C&C 판교 데이터센터 내에만 이중화돼 있어 장애 복구가 늦어졌다"고 진단했다.서비스 개발과 관리를 위한 운영도구 이중화도 미흡했다. 특히 컨테이너 이미지를 저장하거나 관리하는 시스템, 일부 모니터링 도구 등 개발자를 위한 도구들을 화재 여파로 사용하지 못하면서 복구에 난항을 겪었다.

데이터센터 단위의 장애에 대응할 인력이나 자원이 충분치 않았던 정황도 나왔다. 사고 초기 이를 인지하고 기민하게 대응할 수 있는 컨트롤타워도 부재했다.

이 소위원장은 "평소 이중화나 장애 대응 체계를 갖추고 있더라도 이번 장애처럼 데이터센터 전체 장애 상황을 가정하면 준비가 부족했다"며 "판교 데이터센터를 대신할 만큼의 가용 자원이 확보돼 있지 않았기 때문에, 데이터센터의 전원이 들어와 모든 시스템이 정상화되기 전까지 복구가 불가능했다"고 꼬집었다.

이어 "카카오의 개별 조직은 동시다발적으로 장애에 대응했고, 전체적인 조율과 협업을 지원할 전사 조직이 구축돼 있지 않았다"며 "서비스별로 개발자들이 최선을 다했지만, 그것으로는 부족했다"고 지적했다.

◆ 카카오, 자체 데이터센터 구축 계획부터 조직개편 예고

카카오는 오는 2024년 가동을 목표로 경기 안산시 한양대 에리카 캠퍼스에 자체 데이터센터를 짓고 있다. 이 데이터센터는 화재 등의 상황에도 정상 작동할 수 있도록 전력, 냉방, 통신 등 주요 인프라의 이중화 작업을 추진한다. /이프 카카오 캡쳐
카카오는 오는 2024년 가동을 목표로 경기 안산시 한양대 에리카 캠퍼스에 자체 데이터센터를 짓고 있다. 이 데이터센터는 화재 등의 상황에도 정상 작동할 수 있도록 전력, 냉방, 통신 등 주요 인프라의 이중화 작업을 추진한다. /이프 카카오 캡쳐

카카오는 이와 같은 원인을 바탕으로 재발방지책을 마련했다는 설명이다. 현재 카카오는 경기도 안산 한양대 에리카 캠퍼스에 4600억 원을 들여 서버 12만 대 규모의 자체 데이터센터를 짓고 있다. 이 데이터센터는 오는 2024년 가동하는 것이 목표다.

카카오는 이번에 화재로 홍역을 겪은 만큼, 안산 데이터센터 시설 안전성 확보에 주력한다는 설명이다. 특히 데이터센터의 24시간 무중단 운영을 위해 △전력 △냉방 △통신 등 3대 요소에 이중화 인프라 구축에 나설 예정이다. 이번 화재처럼 배터리실에서 발생한 화재가 무정전전원장치(UPS)에 영향을 미치지 않도록 배터리실과 UPS실은 격벽으로 각각 분리 시공한다.

화재 진압에 물을 사용할 수 없는 데이터센터 특성을 고려해 소화가스를 사용하고, 부족 시 다른 층에 있는 소화가스를 끌어다 사용할 수 있도록 설계된다. 부득이하게 냉각수를 활용해야 하는 상황이 발생할 경우, 화재 발생 구간을 차단해 피해를 최소화할 예정이다.

고우찬 재발방지대책 공동 소위원장은 "사건 사고로 서비스가 중단되는 상황을 최소화하기 위해 현재 대응 계획의 취약성을 진단하고, 정확한 처방을 받는 작업을 할 것"이라며 "또한 외부 파트너와 협력해 상시위기대응전략(BCP)을 마련할 것"이라고 예고했다.

카카오는 향후 서비스 장애 발생 시 효율적인 대응을 위한 전담 조직 구성에 나설 예정이다. /이동률 기자
카카오는 향후 서비스 장애 발생 시 효율적인 대응을 위한 전담 조직 구성에 나설 예정이다. /이동률 기자

인프라 관련 조직 강화 조치에도 나선다. 특히 대표이사 산하에 IT엔지니어링 조직을 구성할 예정이다.

남궁 소위원장은 "카카오 내 IT엔지니어링 전문가들로 전문 조직을 만들어 안정적인 서비스 환경을 만들고, 투자하겠다"며 "(개발조직 산하에 있는) 기존의 조직과는 분리해 별도 상위조직으로 두겠다"고 밝혔다.

한편, 카카오는 7일 키노트 연설을 시작으로 9일까지 카카오 공동체 소속 개발자 120여 명이 연사로 나서 △1015 데이터센터 화재 회고 △AI △백엔드 △클라우드 △데브옵스 △블록체인 △데이터 △프론트엔드 △모바일 △ESG △문화 등으로 이뤄진 12개 트랙에서 총 106개 발표 세션을 진행한다. 기술 외에도 접근성이나 기술윤리 등 디지털 책임을 높이기 위한 카카오의 실천적 활동을 소개한 콘텐츠도 공개된다.

munn09@tf.co.kr

발로 뛰는 <더팩트>는 24시간 여러분의 제보를 기다립니다.
▶카카오톡: '더팩트제보' 검색
▶이메일: jebo@tf.co.kr
▶뉴스 홈페이지: http://talk.tf.co.kr/bbs/report/write

- 네이버 메인 더팩트 구독하고 [특종보자▶]
- 그곳이 알고싶냐? [영상보기▶]
[인기기사]