장애사고 53일만에 대책 내놔
서비스 안정화 투자 3배 확충
신설 데이터센터 설계 강화 제시
카카오가 지난 10월 SK㈜C&C 판교 데이터센터 화재로 발생한 대규모 서비스 장애사고 53일 만에 대책을 내놨다. 카카오는 사고 발생과 대응 과정에서의 총체적 부실을 인정하고 향후 재발방지책으로 서버 다중화, 서비스 안정화 투자 3배 확충, 신설 데이터센터 설계 강화 등을 제시했다.
■이중화·대응체계 미비 인정
카카오 남궁훈 비상대책위원회 재발방지대책 공동 소위원장은 7일 연례 테크 컨퍼런스 '이프 카카오(if kakao) 2022'에 앞서 진행된 키노트 세션에서 지난 10월 15일 발생한 카카오 서비스 장애 원인분석과 개선사항을 발표했다.
남궁 소위원장은 "이중화 역할을 다하지 못해 장애를 막지 못했다"며 "향후 △과거 원인분석 △재발방지 대책 수립 △미래 투자 확대 등을 추진할 것"이라고 말했다.
비대위 원인조사 소위원장을 맡은 이확영 그렙 최고경영자(CEO)는 화재 이후 카카오 장애 복구가 지연된 원인으로 △데이터센터 간 이중화 미흡 △서비스 개발·운영 관리도구 이중화 미흡 △장애 복구 위한 인력과 자원 부족 △장애대응 위한 소통채널 혼선 등을 지적했다. 이 CEO는 "제3자로서 이번 카카오 장애를 분석하고 진단할 수 있을 뿐 재발하지 않도록 행동에 옮기는 건 카카오의 역할과 책임"이라며 "전보다 더 높은 목표를 두고 노력해 신뢰를 회복하고 다시금 사용자들에게 사랑받는 서비스가 됐으면 한다"고 했다.
■"서버 다중화+안전한 인프라 구축"
카카오는 향후 데이터센터 간 서버 이중화를 넘어 삼중화·다중화하고 재난대응 조직을 신설하는 등 디지털 재난대응 프로토콜을 강화할 계획이다.
카카오 이채영 비대위 재발방지대책소위원회 부위원장은 "인프라 하드웨어 설비 등 전체 시스템 레이어에 다중화 체계를 구축해 나가겠다"며 "각각의 서버를 다중화해 문제가 발생했을 시에도 빠르게 복구할 수 있는 구조를 만들 수 있도록 우선순위도 관리하겠다"고 전했다. 카카오는 이외에도 상설기구를 신설하고 정기적으로 운영해 장애 대비훈련을 더 확대하고 강화해 나가는 것도 검토한다.
2024년 완공 예정인 안산 데이터센터 등 자체 데이터센터의 설계를 화재, 지진 등 재난을 견딜 수 있도록 설계하고 IT 엔지니어링 조직 확대 개편을 통한 서비스 안정성 강화에도 나선다.
고우찬 카카오 비대위 재발방지대책 공동 소위원장은 "안산 데이터센터는 2024년 사용을 목표로 총 4600억원의 예산을 투입한다"며 "24시간 무중단 운영을 위한 이중화 인프라 구축은 전력·냉방·통신 등 3개 영역에 적용한다"고 설명했다. 이에 더해 IT 엔지니어링 전담조직을 카카오 CEO 직할 부문으로 확대 편성하는 방안도 검토하는 한편 향후 5년간 서비스 안정화 투자 재원을 지난 5년 대비 3배 이상 확대해 안정적인 서비스를 제공할 수 있는 토대를 마련할 계획이다.
jhyuk@fnnews.com 김준혁 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지