[더팩트|최문정 기자] 정부가 지난 10월 발생한 SK C&C 판교 데이터센터 화재 관련 합동 조사결과를 발표했다.
정부는 이번 데이터센터 화재와 이로 인한 네이버와 카카오의 주요 서비스 장애가 시스템 체계 미흡으로 인한 것이라고 결론지었다. 이에 따라 SK C&C와 카카오, 네이버 등 3사에 1개월 내 주요 사고원인에 대한 개선조치와 향후 계획을 수립해 보고 받겠다고 밝혔다.
과학기술정보통신부는 6일 방송통신위원회, 소방청과 함께 지난 10월 15일 발생한 SK C&C 판교 데이터센터 화재와 카카오·네이버 등 부가통신서비스 장애에 대한 조사결과를 발표했다.
조사결과에 따르면, SK C&C 측은 데이터센터 운영과 관리에 있어서 미흡한 부분이 있었다. 특히 배터리실의 구조와 화재 대응의 미흡함 때문에 피해를 키웠다는 설명이다. 해당 데이터센터에 서버를 맡겨 보관하던 카카오는 비상시 시스템의 이중화 조치가 미흡한 탓에 복구가 지체됐고, 이는 곧 이용자들의 피해로 이어졌다는 분석이 제시됐다.
◆ SK C&C 판교 데이터센터, 구조상 화재에 취약
SK C&C 판교 데이터센터는 배터리 온도 등을 모니터링하는 시스템(BMS)를 갖추고 있었다. 이 시스템은 BMS 센서 근처의 온도가 발화 등으로 인해 평소보다 상승하는 경우, 이를 사전에 감지하고 징후를 보내주는 방식이다. 그러나, 이번 화재의 경우, BMS가 화재발생 직전까지 이를 감지하지 못했다.
불이 난 데이터센터 지하 3층 배터리실의 구조도 문제였다. 통상 데이터센터는 지진이나 화재 등 비상상황에도 안정적으로 서버에 전력을 공급할 수 있도록 무정전전원장치(UPS)를 갖춘다. 그러나, SK C&C 판교 데이터센터는 정상 작동 시 사용되는 리튬이온 배터리와 비상전원인 UPS를 물리적으로 분리하지 않은 채 운영한 것으로 나타났다. 따라서 화재가 발생했을 때, UPS의 전원도 열기 등으로 인해 함께 꺼지면서 서버 전력이 차단되는 사고로 이어졌다는 설명이다.
또한 SK C&C 판교 데이터센터는 배터리 상단에 전력선이 지나는 구조로 설계돼 화재 발생으로 인해 전력선이 손상됐다. 특히 카카오의 서버에 전원을 공급하던 전력선이 피해를 입으면서 순식간에 카카오톡, 카카오T 등 주요 카카오 서비스의 동시다발적인 장애가 시작됐다는 설명이다.
SK C&C 측의 화재 대비 매뉴얼이 있었음에도, △살수상황 △발화구역 등 실제 수준까지 반영한 세부 대응계획이나 모의훈련이 없었던 점도 피해를 키운 원인으로 꼽혔다.
과기정통부 등 정부 부처는 SK C&C에 △데이터센터 화재·예방 탐지 △데이터센터 전력공급 생존성 확보 등을 갖출 것을 지시했다. 특히 BMS 계측정보 등 관리 강화 방안과 이 외의 다양한 화재감지 시스템 구축 방안을 수립하라는 지시를 내렸다. 일반적인 화재와 다른 방법으로 진화 작업을 해야 하는 리튬이온 배터리에 특화된 소화설비 확충도 주문했다.
다만, 아직 배터리 발화 원인은 경찰과 소방당국, 국립과학수사연구원이 조사 중이다.
◆ 카카오, 서비스 이중화조치 미흡 지적
이번 데이터센터 화재로 인한 카카오 주요 서비스의 최대 장애 시간은 127시간33분으로 집계됐다고 밝혔다. 과기정통부는 서비스 장애 장기화 원인에 작업자 도구 이중화 조치 등이 미흡했던 카카오의 과실도 있다고 짚었다.
카카오는 서비스 기능을 5개 레이어로 구분하고, 판교 데이터센터와 기타 센터 간 '동작-대기' 체계로 이중화 시스템을 구축했다. 이는 '동작' 서버가 불능 상태에 빠지면 '대기' 상태에 있던 서버가 작동해 서비스를 이어가는 방식이다.
그러나 이번 사고에서는 대기 서버를 활성화하기 위한 '운영 및 관리도구'가 SK C&C 판교 데이터센터에서만 이중화 조치가 돼있고, 다른 데이터센터에는 존재하지 않았다. 이에 따라 해당 데이터센터의 화재가 진압되고, 정상적으로 전원이 들어온 다음에야 복구 작업에 들어갈 수 있어 피해 시간이 길어졌다는 설명이다.
이 밖에도 △카카오 인증이나 카카오톡 등 핵심 기능이 SK C&C 판교 데이터센터에 집중 △장애 시 각 단계 별 체계화와 자동화가 미흡 △일부 서버와 네트워크 등에 대한 재난대비 훈련은 있었지만, 1개 데이터센터 전체가 불능이 되는 대형 재난상황 대비 부족 등이 카카오의 과실로 꼽혔다.
과기정통부는 카카오에 △서비스 다중화 △재난대비 훈련 △이용자 고지와 피해구제 체계 마련 등을 주문했다. 또한 이번 서비스 장애 복구 장기화의 원인인 '운영 및 관리도구'를 여러 데이터센터에 다중화 조치를 하고, 핵심 서비스는 현재보다 높은 수준의 분산과 다중화 적용 방안을 수립할 것을 요구했다. 이번 화재처럼 데이터센터 전소나 네트워크 마비 등 최악의 상황을 가정한 훈련 계획을 수립·시행하고, 이를 보고하라는 요구도 있었다.
카카오와 마찬가지로 SK C&C 판교 데이터센터에 서버를 맡겨 보관하던 네이버 역시 이번 사태로 인해 쇼핑, 뉴스 등 일부 서비스에서 오류가 발생한 것으로 나타났다. 다만, 네이버는 데이터센터 이중화 조치로 인해 서비스 중단은 없었고, 일부 오류 역시 타 데이터센터로 서비스가 전환되는 과정에서 발생한 오류로 파악됐다.
과기정통부는 네이버에도 △장애 시나리오별 복구 방안 재점검 △데이터센터 전소 상황 모의 훈련 등을 요구했다.
과기정통부는 각 사가 제출한 조치 결과와 향후 계획, 재난예방·복구에 대한 의견 등을 정책 방안으로 반영해 내년 1분기 중 디지털 서비스 안정성 확보를 위한 종합 개선 방안을 수립할 계획이다.
이종호 과기정통부 장관은 "정부는 이번 사고를 계기로 주요 디지털 서비스에 대한 재난대응체계를 원점에서 재검토하고 각 사업자별 개선방안, 점검 결과, 제도개선 등을 종합하여 디지털 시대에 맞는 안정성 강화방안을 마련함으로써 끊김 없는 디지털 서비스를 제공할 수 있는 확고한 디지털 위기관리 체계를 구축해나가겠다"고 말했다.
한편, 이날 과기정통부는 카카오가 지난 10월 19일부터 11월 6일까지 시행한 서비스 장애 피해사례 접수가 총 10만5116건이라고 밝혔다. 이 중, 유료 서비스 피해는 1만4918건, 금전적 피해를 언급한 무료 서비스는 1만3198건이다.
munn09@tf.co.kr