![[기후 신호등] ‘다크 데이터’…디지털 쓰레기인가, 숨어있는 자산인가](http://www.ekn.kr/mnt/thum/202605/news-p.v1.20260514.93055dabbd244e9db5de75f8a07d32e9_T1.jpg)
지금 인류는 역사상 유례없는 '데이터의 홍수' 속에 살고 있다. 2025년 한 해 동안 전 세계에서 생성된 데이터의 양은 약 180 제타바이트, 즉 180조 기가바이트(GB)에 달할 것으로 예상된다. 이는 1GB 영화 180조 편에 해당하는 어마어마한 양이다. 이 거대한 데이터 경제의 이면에는 거의 주목받지 못한 또 하나의 위기가 자리 잡고 있다. 바로 활용되지 않은 채 방치되고 있는 데이터, 즉 '다크 데이터(Dark Data, 암흑 데이터)'다. 지난해 여름 디지털 임팩트 얼라이언스(DIAL)의 지원을 받은 연구자인 헤더 오픈쇼는 “인공지능(AI) 시대에 정부의 다크 데이터에 불을 밝히다"라는 보고서를 발표했다. 이 보고서에서 오픈쇼는 정부와 공공기관이 수집한 데이터의 절반 이상, 많게는 75%까지가 실제로는 분석되지 않은 채 저장만 되고 있다고 지적했다. ◇다크 데이터의 실체 오픈쇼는 이 보고서에서 다크 데이터 문제를 단순한 비효율의 문제가 아니라, 환경·경제·안보·인권을 동시에 위협하는 복합적 구조의 위기로 규정하기도 했다. 다크 데이터는 조직이 일상적인 업무 과정에서 수집하고 저장했지만, 다른 목적이나 의사결정에 활용되지 않는 정보 자산을 의미한다. 여기에는 서버 로그, 이메일 첨부파일, 센서 데이터, 오래된 문서, 메타데이터 등이 포함된다. 보고서는 이러한 데이터를 화려한 전시실 아래 먼지와 거미줄로 가득 차 정작 무엇이 들어있는지조차 모르는 '지하 수장고'에 비유한다. 겉으로는 체계적으로 운영되는 것처럼 보이지만, 실제로는 무엇이 들어 있는지조차 제대로 파악되지 않은 상태라는 것이다. 특히 오늘날 데이터의 약 80%가 영상, 음성, 문서 등 비정형 데이터로 구성돼 있어 분석 자체가 쉽지 않다. 이로 인해 데이터는 축적되지만, 실제로 활용되는 비율은 매우 낮은 상태가 지속되고 있다. ◇데이터도 탄소를 배출한다 다크 데이터의 가장 큰 문제 중 하나는 환경 비용이다. 지난 2월 영국 노섬브리아대학교 컴퓨터과학부 앨런 고드프리 교수팀이 국제 학술지 'npj 디지털 의학(Digital Medicine)' 에 발표한 논문 '눈에 보이지 않는 의료 분야 디지털 폐기물 문제 해결'은 데이터 저장이 실제 탄소 배출로 이어진다는 사실을 정량적으로 제시했다. 이 연구에 따르면, 100 테라바이트(TB)의 불필요한 데이터를 1년간 데이터센터에 저장할 경우 약 4000kg의 CO₂가 발생한다. 이러한 배출은 단순 저장만으로도 발생한다. 데이터는 저장되는 동안에도 지속적으로 전력 공급, 백업, 냉각 과정을 필요로 하기 때문이다. 우리가 '혹시 몰라서' 지우지 않는 이메일 첨부 파일 하나, 의미 없는 로그 데이터 하나가 실시간으로 지구 온난화를 가속하고 있는 셈이다. 현재 데이터센터는 전 세계 전력 소비의 약 3%를 차지하고 있으며, 이 전력의 상당 부분은 여전히 화석연료에 의존하고 있다. 결국 다크 데이터는 눈에 보이지 않을 뿐, 지속적으로 탄소를 배출하는 '디지털 오염원'이라고 할 수 있다. 고드프리 교수팀의 논문에 따르면 데이터가 과도하게 축적될 경우 △검색 속도 저하 △백업 및 복구 시간 증가 △시스템 복잡성 증가 △유지 비용 상승 등의 문제가 발생한다. 특히 오래된 데이터와 사용되지 않는 애플리케이션은 최신 보안 체계를 적용받지 못하는 경우가 많아 해킹 위험이 높다. 즉, 다크 데이터는 단순히 “쓸모없는 파일"이 아니라, 비용을 지속적으로 발생시키면서 동시에 위험을 키우는 구조적 부담으로 작용한다는 것이다. ◇국가 안보와 인권 위협: '모르는 데이터'의 위험 다크 데이터 문제는 기술이나 비용의 차원을 넘어 국가 안보와 인권 문제로 확장된다. 오픈쇼의 보고서는 정부가 자신이 보유한 데이터의 범위와 내용을 정확히 파악하지 못할 경우 △대규모 개인정보 유출 △민감 정보 노출 △정책 오류 등으로 이어질 수 있다고 경고한다. 특히 문제는 AI와 결합될 때 더욱 심각해진다. AI는 방대한 데이터를 분석할 수 있는 강력한 도구지만,편향되거나 오래되고 불완전한 데이터를 학습할 경우 잘못된 판단을 강화할 수 있다. 보고서는 다크 데이터 관리가 부실할 때 발생할 수 있는 치명적인 위협 사례들을 제시했다. 방글라데시 정보국(NTMC)은 설정 오류로 인해 시민들의 성명, 생년월일, 과거 시험 결과는 물론 휴대전화 복제나 추적에 악용될 수 있는 메타데이터까지 담긴 거대 데이터베이스를 인터넷에 노출시켰다. 2024년 터키 정부에서 유출된 300만 명 이상의 시리아 난민 개인정보는 인신매매 집단 등에 악용될 우려를 낳았다. 가자지구 전쟁 이전부터 이스라엘의 감시 시스템 '레드 울프(Red Wolf)'는 팔레스타인 인구의 생체 인식 데이터를 수집해 이동을 제한하는 데 활용됐다. 이는 다크 데이터가 국가 권력에 의해 어떻게 인권 침해의 도구로 변질될 수 있는지 보여주는 강력한 경고다. 이들 사례는 “자신이 가진 데이터를 모르면 책임질 필요도 없다"는 안일한 인식이 국가적 재난으로 이어질 수 있음을 보여준 사례다. 다크 데이터는 관리되지 않을 경우 보안 취약점이자 동시에 인권 침해의 잠재적 도구로 작동할 수 있다. ◇다크 데이터의 잠재적 가치도 흥미로운 점은 다크 데이터가 위험인 동시에 엄청난 기회를 제공한다는 사실이다. 창출되는 공익적 가치도 어마어마하다. 2002년 브라질은 5000개 이상의 지자체에 흩어져 방치되어 있던 데이터베이스를 통합했는데, 이를 통해 사회 복지 혜택에서 누락된 취약 계층을 찾아냈고, 현금 지원 프로그램의 효율성을 획기적으로 높였다. 아프리카 우간다에서는 머신러닝을 활용해 과거에는 쓸모없다고 여겨졌던 야간 위성 이미지를 분석했다. 이를 통해 마을의 전력 공급 여부와 경제 성장 사이의 상관관계를 입증하고, 효율적인 지역 개발 전략을 수립할 수 있었다. 경제성장에 보탬이 된 것이다. 케냐에서는 기존 금융권에서 소외됐던 사람들의 휴대전화 사용 패턴(다크 데이터)으로 신용도를 평가하는 핀테크 혁신을 통해 수혜자들의 월평균 소득이 21% 증가하는 성과를 거두었다. 다크 데이터는 '위험한 폐기물'이 아니라 '관리되지 않은 자산'이라는 말이다. ◇왜 관리가 어려운가: 구조적 한계 그렇다면 왜 다크 데이터는 계속 쌓이기만 할까. 데이터 관리의 어려움은 단순히 '기술'의 문제가 아니라 '사람'과 '조직'의 복합적인 문제다. 오픈쇼의 보고서는 세 가지 구조적 원인을 제시한다. 첫째, 데이터 표준화가 안 돼 있다. 부처와 기관마다 서로 다른 형식으로 데이터를 저장하기 때문에 통합과 분석이 어렵다. 둘째, 기술과 인력이 부족하다. 특히 저소득 및 중소득 국가에서는 데이터 분석 인력과 인프라가 부족해 데이터를 활용하지 못하는 경우가 많다. 셋째, 법과 정책이 갖춰지지 않았다. 데이터 보호와 활용에 대한 규정이 일관되지 않아 책임 있는 관리가 이루어지지 않는다 . 이 세 가지 요인이 결합되면서 데이터는 계속 생성되지만 활용되지 않는 구조가 고착화되고 있다는 것이다. ◇'디지털 위생'과 데이터 거버넌스가 필요 전문가들은 다크 데이터 문제 해결을 위해 기술적 접근과 제도적 접근이 동시에 필요하다고 강조한다. ① 데이터 생애주기 관리: 데이터는 생성부터 삭제까지 전 과정을 관리해야 한다. 특히, 일정 기간 격리 저장(Quarantine), 검토 기간 설정을 통해 안전하게 데이터를 삭제할 것을 논문은 권고한다. 이른바 '디지털 위생'의 강화다. ② AI 기반 자동화: 중복 파일, 오래된 백업, 쓰지 않는 앱을 식별하는 도구를 도입할 필요가 있다. AI는 비정형 데이터를 구조화하고, 중복 데이터를 제거하고, 중요도 분류와 패턴 분석을 수행할 수 있다. 다만 반드시 사람의 감독과 윤리 기준이 병행되어야 한다. AI와 머신러닝을 활용해 수작업으로 불가능한 방대한 데이터를 자동으로 분류(Tagging)하고 가치를 부여해야 한다. ③ 디지털 공공 인프라(DPI) 구축: 보고서는 특히 DPI 구축을 핵심 해법으로 제시한다. 이는 데이터 표준화, 기관 간 연계, 접근 권한 관리, 투명성 확보를 가능하게 하는 기반 시스템이다. 에스토니아와 핀란드가 공유하는 '엑스로드(X-Road)' 사례처럼, 시민이 자신의 데이터에 누가 접근했는지 투명하게 모니터링할 수 있는 시스템을 구축해 신뢰를 쌓아야 한다. ④ 조직과 개인의 실천: 최고 데이터 책임자(CDO)와 데이터 보호 책임자(DPO)를 의무적으로 채용해 부서 간 칸막이를 없애고 표준화된 정책을 수립해야 한다. 구체적으로는 정기적인 데이터 감사를 통해 중복·오래된 데이터를 삭제하고, 콜드 스토리지 활용하며 자동 삭제 정책 도입하는 것이 필요하다. 콜드 스토리지(Cold Storage)는 자주 꺼내 쓰지 않는 데이터를 저렴하게, 장기 보관하는 저장 방식을 말한다. 당장 필요 없는 데이터는 전력 소모가 적은 오프라인 저장소로 옮길 수도 있다. 또한 매년 시행되는 '디지털 클린업 데이'와 같은 캠페인은 실제로 에너지 절감과 보안 강화에 기여할 수 있다. 매년 3월 세 번째 토요일인 '디지털 클린업 데이'에 맞춰 회사 전 직원이 데이터 삭제 캠페인을 벌이는 것도 방법이다. ◇저장의 시대에서 '관리의 시대'로 지금까지 데이터 전략은 '가능한 많이 저장하는 것'에 초점이 맞춰져 있었다. 그러나 이제는 그 패러다임이 바뀌고 있다. 중요한 것은 얼마나 책임 있게 관리하고 활용하는가이다. 다크 데이터는 환경을 오염시키고, 비용을 증가시키며, 보안을 위협하고 인권을 침해할 수 있다. 다크 데이터는 '나중에 필요할지도 모른다'는 두려움 때문에 우리가 쌓아둔 '미래에 대한 부채'다. 이제는 '묻지도 따지지도 않고 저장'하던 관행에서 벗어나, 데이터의 생성부터 삭제까지 책임지는 '디지털 위생'의 시대로 나아가야 한다. 그렇지만 다크 데이터는 동시에 사회적 가치를 창출하고, 정책 혁신과 경제 성장의 핵심 자원이 될 수도 있는 만큼 데이터를 줄이고 지우는 것만이 능사는 아니다. 결국 보이지 않는 데이터의 어둠을 그대로 둘 것인지, 아니면 공공의 자산으로 전환할 것인지는 이제 각 국가와 조직의 선택에 달려 있다. 정부와 기업은 투명한 데이터 거버넌스를 구축하고, 개인도 불필요한 데이터를 과감히 삭제하는 용기를 가질 때, 비로소 우리는 지속 가능한 디지털 미래를 맞이할 수 있다. 강찬수 기후환경 전문기자 kcs25@ekn.kr



![[현장] 10m 콘크리트 처분고 20개 우뚝…경주 방폐장 2단계 가보니](http://www.ekn.kr/mnt/thum/202605/news-p.v1.20260514.16d8d2063a5e47c686af43812200a2bb_T1.png)



![[EE칼럼] “전력난민”만 남긴 일본 자율화?…진짜 교훈은 따로 있다](http://www.ekn.kr/mnt/thum/202605/news-p.v1.20240401.785289562a234124a8e3d86069d38428_T1.jpg)

![[단독 인터뷰] 하정우 “고향에 AI 생태계 만들 것…검사 출신은 못해”](http://www.ekn.kr/mnt/thum/202605/news-p.v1.20260516.256b67599d624241a03e9e0f8b8d138a_T1.jpg)








![[EE칼럼] AI와 전력, 그리고 국가 전략의 재편](http://www.ekn.kr/mnt/thum/202605/news-p.v1.20240401.903d4dceea7f4101b87348a1dda435ac_T1.jpg)

![[이슈&인사이트] 회칠한 무덤이 될 위기에 놓인 대한민국](http://www.ekn.kr/mnt/thum/202605/news-a.v1.20250714.6113a82b3a8646498673ad8e0ae0439f_T1.jpg)
![[데스크 칼럼] 안보자원으로 떠오른 ‘재생나프타’ 법제화 서둘러야](http://www.ekn.kr/mnt/thum/202605/news-p.v1.20260505.2a2758192c8a4340b4b02ed548cf15b8_T1.jpg)
![[기자의 눈] 외국인 통합계좌의 역설, 중소형사에 ‘강요된 속도전’](http://www.ekn.kr/mnt/thum/202605/news-p.v1.20260515.e27c94f2da4244a895adbd767a9963d8_T1.jpg)






















