카카오 “이중화 미흡으로 화재복구 지연…5년간 3배 이상 투자”

카카오 “이중화 미흡으로 화재복구 지연…5년간 3배 이상 투자”

개발자 컨퍼런스서 서비스 장애 원인⋅재발방지 대책 공개

기사승인 2022-12-07 14:21:17
카카오가 7일 개발자 컨퍼런스 이프 카카오를 열고 10월 서비스 중단 원인과 재발방지 대책을 발표했다. (왼쪽 위부터) 남궁훈 비상대책위원회 재발방지대책 공동 소위원장, 이확영 비상대책위원회 원인조사 소위원장, 이채영 비상대책위원회 재발방지대책소위원회 부위원장, 고우찬 비상대책위원회 재발방지대책 공동 소위원장.   카카오 

카카오가 서비스 안정화를 목표로 지난 5년간 투자한 금액보다 3배 이상 투자를 늘린다. 데이터센터 재난대응력을 강화하고, 재해복귀 위원회 등 조직도 다수 만든다. 카카오는 온라인 개발자 행사 ‘이프 카카오’ 첫 날인 7일 오전 장애 원인과 재발방지대책을 공유했다. 지난 10월 15일 대규모 서비스 장애가 발생한 지 한 달 반 만이다.

‘카카오 사태’로 사임하고 지금은 비상대책위원회 재발방지대책 공동 소위원장을 맡고 있는 남궁훈 전 대표가 ‘Our Social Mission’이라는 주제로 세션을 열었다.

남 위원장은 “카카오는 새로운 기술로 미래를 개척하고 그 과정에서 다양한 이해관계자와 함께 성장하는 방식으로 ESG 과제를 수행해왔다”며 “이번 소위원회 활동으로 가장 본질을 놓치고 있다는 걸 깨달았다. 카카오 ESG 최우선 과제는 ‘우리 서비스를 안정적으로 제공하는 것 그 자체였다”고 밝혔다.

그는 “우리의 ‘부족한 이중화’는 이중화 역할을 다하지 못했고 결국 장애를 막지 못했다”고 반성했다. 이어 “완벽하지 못했던 이중화를 비롯해 카카오가 부족했던 모든 부분을 개선하기 위해 과거 원인을 분석하고 재발방지책을 세우며 미래에 대해 투자할 것”이라고 다짐했다.

이확영 비상대책위 원인조사 소위원장 겸 그랙 공동대표는 피해복구가 지연된 원인을 보고했다. 이 위원장은 △데이터센터 간 이중화 미흡 △운영관리 도구 이중화 미흡 △이중화전환 후 가용자원 부족을 근거로 들었다.

이 위원장은 “데이터센터 전체에 문제가 생기더라도 다른 센터에 모든 시스템이 이중화해있었더라면 빠르게 복구됐을 텐데 일부 시스템이 판교센터 내에만 이중화해있었다”고 진단했다.

조사 결과 센터 한 곳에 장애가 터지면 다른 센터로 자동 전환해주는 시스템이 작동해야 하는데, 이 시스템도 판교에만 있었다. 이 위원장은 “카카오는 운영관리 도구 안정성 확보에 소홀했고 판교센터 전체를 대신할만한 가용자원이 확보돼있지 않았다”고도 지적했다.

카카오가 위기대응에 미숙할 수밖에 없는 실태도 드러났다. 장애복구 인력과 자원이 부족하고 장애 대응을 위한 소통 채널이 사고 당시 혼선을 빚었다. 재해컨트롤타워도 없어서 개발자들만으로는 장애를 방어하는데 어려움이 많았다.

이채영 비상대책위 재발방지대책소위 부위원장은 재발방지를 위한 기술개선 실천계획을 전했다.

이 부위원장은 “카카오는 카카오톡 등 서비스 앱을 세 곳 이상 데이터센터에 분산 배치해 운영하고 판교와 타 지역 센터를 중심으로 이중화했지만 부족했다”며 “판교센터 화재로 전원공급이 중단되면서 네트워크 구성과 무관하게 서버가 함께 다운됐고 이런 이유로 장비 모니터링과 장애 탐지가 원활하지 못했다”고 설명했다.

이어 “앞으로는 모니터링 시스템을 다중화하고 메인 백본 센터를 두 곳에서 세 곳으로 확대하겠다. 센터 간 트래픽에 대응하도록 확장성을 고려한 설비 투자도 진행 하겠다”고 밝혔다. 카카오는 데이터 센터 삼중화를 위한 전용망도 따로 구성하기로 했다.

이 위원장은 아울러 △데이터 다중 복제 구조 구성 △운영관리도구 삼중화 △플랫폼 도구 클러스터 삼중화 △장애 대비 훈련 확대 △서비스 간 우선순위 관리를 다짐했다.

고우찬 공동 소위원장은 오는 2024년 운영될 안산 데이터센터 재난대응 준비현황을 소개했다. 안산센터는 24시간 무 중단 운영을 위한 이중화가 전력, 냉방, 통신에 모두 적용된다.

화재로 이슈가 된 UPS(무정전전원장치) 실과 배터리 실은 불이 붙어도 다른 시설에 영향을 주지 않도록 방화격벽으로 분리 설계됐다. 이번 사고처럼 배터리 실에 화재가 발생하면 3중 진화 방식이 작동한다. 소화가스가 들어가기 어려운 밀폐 공간에 소화 장치를 개별 설치했고 부족한 소화가스를 다른 층에서 끌어 쓸 수 있도록 시스템을 구축했다. 소화가스로도 진화가 어려우면 화재구간을 차단하고 냉각수를 채울 수 있게 설계했다.

고 위원장은 “안산센터는 침수, 해일, 강풍, 지진대비책도 완비했다”며 “안정적 서비스 운영에 크게 기여할 것”이라고 강조했다.

카카오는 IT엔지니어링 혁신안도 공개했다. IT엔지니어링 조직을 CEO 직속에 두고 최고 IT전문가를 적극 영입해 규모를 확대하기로 했다.

대규모 장애에 대비한 재해복귀 위원회를 신설하고 서비스 연속성 확보를 위한 조직도 꾸릴 예정이다. 외부파트너와 협력해 비상대응계획(BCP) 취약성을 진단하고 재난복구(DR) 아키텍처S는 삼중화 플러스(+) 알파구조로 개선하기로 했다. 카카오톡 등 단기간에 복구해야 할 서비스 등을 위해 원격지DR센터구축도 검토된다.

카카오는 과감한 투자도 실천한다.

고 위원장은 “향후 5년 간은 지난 5년 간 투자 금액의 3배 이상 규모로 확대할 것”이라고 밝혔다. 이어 “IT엔지니어링 혁신 아이템들을 착실히 실행해서 이번 서비스 중단으로 소비자가 받은 불편이 되풀이 되지 않고 믿고 편히 쓸 수 있도록 최선을 다할 것”이라고 강조했다.


송금종 기자 song@kukinews.com
송금종 기자
song@kukinews.com
송금종 기자
이 기사 어떻게 생각하세요
  • 추천해요
    0
  • 슬퍼요
    0
  • 화나요
    0
추천기사
많이 본 기사
오피니언
실시간