문어발 확장 열올린 카카오…데이터 분산백업 기본도 안지켜

페이지 정보

작성자 cfpa 댓글 0건 조회 1,098회 작성일 22-10-17 08:57

본문

출처 : 매일경제



덩치만 키워온 IT공룡
단순 화재에 속수무책


카카오 10년전에도 같은 사고
데이터센터 이원화 말뿐
되레 판교센터에 서버 집중
위기대응능력도 도마에
돈벌이사업 집중 민낯 드러내

네이버 비상대응과 대조적
"춘천·판교 등에 분산백업"
일부 서비스 장애 즉각 복구


K C&C 판교 데이터센터에서 발생한 화재로 카카오톡, 카카오페이, 카카오T 등 전 국민이 사용하는 카카오 주요 서비스가 동시에 중단되는 사상 초유의 사태가 벌어졌다. 독점적 지위를 가진 정보기술(IT)플랫폼의 서비스 부실 운영으로 국가 기간 소통망이 한순간에 멈춰서는 국가 재난급 사태가 터진 것이다. 이번 '카카오 블랙아웃' 사태는 그간 문어발식으로 서비스를 확장해온 카카오가 IT업체의 기본인 데이터센터 재난 복구 시스템과 비상대응체계가 부실을 넘어 아예 없다시피 한 '민낯'이 드러난 사건이라는 평가가 나온다.

잦은 서비스 오류 논란에도 개선 없이 '네트워크 선점 효과'를 통해 10년 넘게 국내 1위 자리를 지켜온 카카오톡은 12년 만에 최장 시간 서비스 장애를 기록하면서 최대 위기에 봉착했다. 특히 화재가 발생한 같은 건물에 서버를 둔 네이버의 경우 신속한 이원화 체계로 서비스 장애가 카카오만큼 전방위적으로 일어나지 않았고, 일부는 빨리 복구됐다는 점에서 카카오와 대조를 이룬 것이 카카오로선 뼈아픈 지점이다. 

16일 매일경제 취재를 종합하면 이번 사태는 단순 화재로 발생했지만 △재난 시 백업·이원화 미비 △과도한 서버 집중 문제 △비상대응체계 부족 △자체 운영 데이터센터(IDC) 전무(全無) 등 복합적 요인으로 언제든 터질 수 있는 '인재(人災)'에 가깝다는 분석이다. 카카오, 네이버와 같은 대형 IT플랫폼들은 통상적으로 화재와 같은 재난 상황에 대비해 데이터를 국내 여러 데이터센터에 분할 저장하는 시스템을 갖추고 있다. 카카오톡 같은 주요 서비스가 어떠한 재난 상황에도 멈추지 않도록 한 곳이 지진 혹은 테러 등의 사고가 나더라도 다른 곳에 실시간 백업시스템을 갖추는 게 이원화 시스템의 기본적 취지다. 

◆ 카카오 먹통 대란 ◆

지난 15일 화재가 발생한 경기도 성남시 분당구 삼평동 SK C&C 데이터센터에 소방관들이 출동해 분주하게 움직이고 있다. [사진 출처 = 연합뉴스]
사진설명지난 15일 화재가 발생한 경기도 성남시 분당구 삼평동 SK C&C 데이터센터에 소방관들이 출동해 분주하게 움직이고 있다. [사진 출처 = 연합뉴스]
SK C&C 판교 데이터센터에서 발생한 화재로 카카오톡, 카카오페이, 카카오T 등 전 국민이 사용하는 카카오 주요 서비스가 동시에 중단되는 사상 초유의 사태가 벌어졌다. 독점적 지위를 가진 정보기술(IT)플랫폼의 서비스 부실 운영으로 국가 기간 소통망이 한순간에 멈춰서는 국가 재난급 사태가 터진 것이다. 이번 '카카오 블랙아웃' 사태는 그간 문어발식으로 서비스를 확장해온 카카오가 IT업체의 기본인 데이터센터 재난 복구 시스템과 비상대응체계가 부실을 넘어 아예 없다시피 한 '민낯'이 드러난 사건이라는 평가가 나온다.

잦은 서비스 오류 논란에도 개선 없이 '네트워크 선점 효과'를 통해 10년 넘게 국내 1위 자리를 지켜온 카카오톡은 12년 만에 최장 시간 서비스 장애를 기록하면서 최대 위기에 봉착했다. 특히 화재가 발생한 같은 건물에 서버를 둔 네이버의 경우 신속한 이원화 체계로 서비스 장애가 카카오만큼 전방위적으로 일어나지 않았고, 일부는 빨리 복구됐다는 점에서 카카오와 대조를 이룬 것이 카카오로선 뼈아픈 지점이다.
광고

16일 매일경제 취재를 종합하면 이번 사태는 단순 화재로 발생했지만 △재난 시 백업·이원화 미비 △과도한 서버 집중 문제 △비상대응체계 부족 △자체 운영 데이터센터(IDC) 전무(全無) 등 복합적 요인으로 언제든 터질 수 있는 '인재(人災)'에 가깝다는 분석이다. 카카오, 네이버와 같은 대형 IT플랫폼들은 통상적으로 화재와 같은 재난 상황에 대비해 데이터를 국내 여러 데이터센터에 분할 저장하는 시스템을 갖추고 있다. 카카오톡 같은 주요 서비스가 어떠한 재난 상황에도 멈추지 않도록 한 곳이 지진 혹은 테러 등의 사고가 나더라도 다른 곳에 실시간 백업시스템을 갖추는 게 이원화 시스템의 기본적 취지다.

image_readmed_2022_914446_16659187645198493.jpg
카카오는 15일 오후 데이터센터에서 불이 난 직후 해당 사실을 인지하고 즉시 이원화 조치를 하기 시작했다고 밝혔다. 문제는 이원화 시스템이 제대로 작동하지 않았다는 점이다. 화재 발생 이후 10시간이 지난 16일 새벽 2시가 돼서야 카카오톡을 비롯한 일부 서비스가 복구됐다. 카카오는 "안전상의 이유로 화재 직후 SK C&C 데이터센터의 전력이 즉시 차단돼 이원화 시스템이 원활하지 못했다"고 설명했다.

하지만 전문가들은 카카오가 국내 여러 지역에 복수의 데이터센터를 이용하고 있는 상황에서 SK C&C 데이터센터 한 곳이 가동이 안 된다고 카카오 서비스 전체가 먹통이 된 것에 의구심을 나타내고 있다.

이에 대해 카카오 측은 "서버가 유기적으로 구성돼 있어 판교 데이터센터의 장애가 다른 데이터센터에도 영향을 미쳤다"고 해명했다. 데이터 분할 백업을 해놓긴 했지만 정작 데이터 분할 백업을 하는 이유가 된 유사시 데이터 안전성에 대해서는 단 한 번의 사고로 전체가 무력화되는 지점이 있다는 것을 스스로 인정한 셈이다. 서비스를 실시간으로 백업하는 시스템이 사실상 작동하지 않았다는 얘기다. 이에 대해 IT업계 관계자는 "서버가 탄 것도 아니고 단순 화재였는데 유사시 백업 서비스가 작동하고 우회경로로 바로 돌아가면 서비스 기능들은 정상 작동될 수 있었으나 이게 작동하지 않은 것으로 보인다"면서 "백업하는 목적이 고객 데이터 안전을 위한 것이 아니라, 백업 절차 준수 그 자체라는 점을 만천하에 드러낸 사건"이라고 지적했다.

양현서 카카오 부사장은 SK C&C 판교 데이터센터에 있는 서버 가운데 절반가량이 복구됐다고 16일 밝혔다. 그는 "이곳에 서버를 3만2000대 정도 두면서 메인 데이터센터로 삼았다"면서 "현재 1만6000개 정도의 서버가 복구된 상황"이라고 말했다.

하지만 이 역시 논란을 불러왔다. 카카오가 사실상 한 데이터센터에 서버를 집중시킨 것을 시인한 셈이기 때문이다. 네이버의 경우 메인 서비스 서버를 춘천에 자리한 자체 데이터센터에 두고 있고, 일부 서비스 서버는 판교 등에 분산한 것으로 알려졌다. 이번 사태에서 네이버 서비스의 피해가 적었던 것도 주요 서비스의 이중화와 서비스 컴포넌트 분산 배치·백업 덕분이라는 설명이다.

비상상황 발생 시 허술한 비상대응체계도 도마에 올랐다. 막대한 유지 비용이 드는 미러사이트(정보를 그대로 복사해 관리)까지는 아니더라도, 핫사이트(비상 대응을 위해 서버와 데이터 등을 미리 설치해둔 백업 사이트)가 가동됐으면 비교적 신속한 복구가 가능했을 것이라는 분석도 나온다. 또한 평소 이원화 조치 적용과 재난 복구 훈련 시 데이터센터 전원이 한꺼번에 내려간 '최악의 상황'을 염두에 둔 대응체계가 마련되지 않았다는 비판도 나온다.