©오예원 기자
©오예원 기자

 2007년 인터넷 경매 사이트인 이베이에 1852년산 아크틱 에일(Arctic ale) 한 병이 올라왔습니다. 올소프(Allsopp)라는 양조업자가 준비한 술로, 북극 원정을 떠난 탐험가들에게 제공되던 맥주였습니다. 산뜻한 갈색에 포도주와 견과 맛이 동시에 나는 좋은 술이었죠. 그런데 판매자는 이베이에 글을 올리면서 한 가지 실수를 저질렀습니다. 올소프의 두 p에서 하나를 빼먹고 만 겁니다! 그 결과 대다수의 빈티지 맥주 애호가들은 아크틱 에일을 검색하지 못했고, 우덜이라는 청년이 고작 304달러에 맥주를 낙찰 받게 되었습니다. 우덜은 맥주의 진짜 가치를 알아보고 싶어 곧바로 이베이에 글을 올렸습니다. 이번에는 철자를 제대로 적었죠. 그러자 157건의 입찰이 있었고, 최종 낙찰가는 무려 50,300달러였습니다. 우리는 이 사례를 통해 빠진 정보가 얼마나 중요한 차이를 만들어낼 수 있는지 알 수 있습니다. 그렇다면 우리가 모르는 데이터에는 어떤 것들이 있고, 왜 중요할까요?

 

우리가 알지 못하는 데이터

 우리가 모르는 데이터를 부르는 명칭이 있습니다. 바로 ‘다크 데이터(dark data)’입니다. 다크 데이터라는 용어는 암흑물질(dark matter)에서 유래했습니다. 우주의 약 27%를 차지하는 이 불가사의한 물질은 다른 전자기파와 상호작용하지 않아서 육안으로 관측할 수 없습니다. 하지만 암흑물질의 존재 없이는 은하 바깥쪽의 별들이 은하 중심부의 별들보다 천천히 움직이지 않는 현상을 설명할 수 없었습니다. 중력이론을 통해 예측한 결과와는 상이했죠. 다크 데이터도 암흑물질과 비슷합니다. 우리가 볼 수도 없고 기록되지도 않지만, 우리의 결정과 행동에 막대한 영향을 미칠 수 있습니다. 미지의 데이터가 숨어있을 가능성을 알아차리지 못한다면 치명적인 결과를 낳을 수도 있죠. 따라서 지금부터는 다크 데이터가 왜 생겨나는지 알아보도록 합시다. 

 

다크 데이터는 왜 생겨나는가?

 다크 데이터가 생겨나는 원인은 무수히 많습니다. 여기서는 그중 몇 가지를 소개하고자 합니다.

 먼저, 데이터 세트를 생성하는 방법에 따라 다크 데이터가 발생할 수 있습니다. 모집단 내의 일부 항목에 대해서만 데이터를 수집할 때, 가장 흔히 사용되는 전략에는 설문조사가 있습니다. 설문조사를 실시할 때는 표본을 무작위로, 적절히 뽑아야 합니다. 다행스럽게도 큰 수의 법칙에 따르면, 한 모집단에서 무작위로 뽑은 표본의 평균값은 표본이 충분히 크다는 가정하에 모집단의 진짜 평균값에 근접할 확률이 매우 높습니다. 하지만 설문조사에서도 다크 데이터는 발생합니다. 설문조사는 대체로 자발적인 참여에 의존합니다. 사람들은 어떤 질문에는 대답하고, 어떤 질문에는 대답하지 않거나, 설문조사에 참여하지 않을 수 있습니다. 이때 빠진 응답들은 다크 데이터가 됩니다.

 데이터를 수집하는 과정에서도 다크 데이터가 발생합니다. 타이태닉호의 비극에 관해서는 누구나 들어본 적이 있을 겁니다. 타이태닉호에는 승무원이 908명 있었는데, 그중 23.3%인 212명만이 생존했습니다. 반면 삼등칸 승객 627명 중에서는 24.1%인 151명이 생존했습니다. 이 데이터만 본다면 삼등칸 승객이 승무원보다 많이 생존했다는 결론을 내리게 됩니다. 그러나 이를 생물학적 성별로 나누어 보면 새로운 결과를 얻게 됩니다. 승무원 중에 남성은 885명이었고, 이들 중에서는 21.7%인 192명이 생존했습니다. 삼등칸 남성 승객은 462명이었으며 16.2%인 75명이 생존했죠. 이 분석에 따르면 남성 승무원의 생존율이 더 높습니다. 여성도 마찬가지입니다. 여성 승무원은 23명이었고, 87.0%인 20명이 생존했지만, 삼등칸 여성 승객 165명중에서는 46.1%인 76명이 생존했습니다. 이 경우에도 여성 승무원의 생존율이 더 높습니다. 어떻게 된 것일까요? 수치가 보여주듯, 이는 속임수가 아닙니다. 이 현상은 ‘심슨의 역설’이라고 불립니다. 만약 배에 탄 사람들의 성별을 기록해두지 않았다면 삼등칸 승객의 생존율이 더 높다는 결론을 내리겠지만, 성별에 초점을 맞춘다면 이는 틀린 분석이 됩니다. 데이터 각각이 갖는 특성 중 하나라도 결론을 뒤집는 효과를 낸다면 특성이 누락된 데이터는 오해의 소지를 불러일으킬 수 있습니다.

 이 밖에도 인간이기 때문에 발생할 수밖에 없는 오류나 측정 도구의 오류, 고의로 은닉되거나 비대칭적으로 제공되는 정보로 인해 다크 데이터가 발생하기도 합니다. 그렇다면 이렇게 생겨난 다크 데이터의 종류에는 정확히 어떤 것들이 있을까요?

 

다크 데이터의 15가지 유형

 데이비드 핸드는 다크 데이터의 유형을 총 15가지로 분류했습니다. 하지만 이 분류법도 다크 데이터의 모든 유형을 설명하지는 못합니다. 데이터가 누락되거나 부적절해지는 원인은 무수히 많고, 새로운 유형의 데이터는 계속 생겨나고 있기 때문입니다. 지금부터는 한 가지 비극적인 사건을 통해 몇 가지 유형을 살펴보겠습니다.

 1986년 1월 28일, 우주왕복선 챌린저호가 발사 후 73초 만에 15킬로미터 상공에서 거대한 불덩어리로 변해 추락하고 말았습니다. 추진 로켓 중 하나가 폭발했기 때문이었습니다. 이 사고로 우주비행사 다섯 명과 임무 수행 전문가 두 명으로 구성된 승무원 일곱 명이 모두 사망했습니다. 비극적인 사고 전날 밤, 로켓 추진체를 만든 모턴 사이어콜 사와 마셜우주비행센터에 있던 직원들은 원격 회의를 진행하고 있었습니다. 마셜우주비행센터의 한 직원이 모턴 사이어콜 측에 낮은 온도가 고체 로켓 모터에 어떤 영향을 미칠지 점검해 달라고 부탁했습니다. 그러자 모턴 사이어콜 팀은 낮은 온도에서는 오링(O-ring)이라는 부품이 딱딱해질 것이라고 답변했습니다. 오링은 네 개의 구성부로 만들어진 로켓 추진체의 접합 부분을 연결할 때 사용하는 부품으로, 모턴 사이어콜 측에서는 오링이 딱딱해지면 접합부 사이의 틈이 벌어지면서 로켓 추진체 사이의 밀폐력이 손상될 것을 우려했습니다. 그러나 오링 변형이 일어난 비행의 데이터를 살펴 보았을 때는 발사 온도와 오링 변형 사이에 큰 관련이 없어 보였습니다. 발사 일자에 대한 압박을 느끼고 있었던 직원들은 고민하다가 발사를 해도 좋다는 결론을 내렸습니다. 사고 후 조사위원회는 한 가지 사실에 주목했습니다. 오링 변형을 겪은 적이 없는 비행들은 원격 회의에서 논의되지 않았던 겁니다.

 이는 핸드가 구분한 유형 중 유형 2번인 ‘빠져 있는지 우리가 모르는 데이터’와 3번인 ‘일부 사례만 선택하기’에 해당합니다. 빠져 있는지 우리가 모르는 데이터는 누락된 데이터의 존재를 알아차리지 못하는 경우로, 예상 응답자 목록을 모르는 채로 진행한 인터넷 설문조사 등이 대표적인 사례입니다. 챌린저호의 사례에서 직원들은 해당 데이터가 누락됐다는 사실을 모르고 있었죠. 또한, 일부 사례만 선택하기는 데이터를 표본에 포함하는 기준을 잘못 선택하거나, 과학적 데이터에 대해 p-해킹* 등을 감안하지 못했을 때 발생하는 다크 데이터의 유형입니다. 챌린저호의 사례에서는 오링 변형을 겪은 적이 없는 비행들을 표본에 포함하지 않았습니다.

 조금 더 살펴봅시다. 챌린저호 발사 시 접합부의 온도 스펙트럼인 화씨 53도와 75도 사이에서 변형된 오링의 개수는 관련성을 보이지 않습니다. 과거 가장 낮은 발사 온도인 화씨 53도에서는 오링 4개 중 3개가 변형을 일으켰지만, 가장 높은 발사 온도인 화씨 75도에서는 2개가 변형을 일으켰습니다. 하지만 여기에 오링 변형이 없었던 발사를 포함하면 양상이 달라집니다. 온도가 화씨 65도 아래였던 모든 발사에서는 오링 변형이 일어났지만, 더 높은 온도에서 실시된 21번의 발사 중에서는 변형이 4번밖에 일어나지 않았습니다. 따라서 발사 온도가 낮을수록 위험성이 더 커졌던 것이죠. 이는 유형 15번, ‘데이터 너머로 외삽하기’의 예입니다. 데이터 세트는 언제나 유한할 수밖에 없습니다. 최댓값과 최솟값 밖의 데이터들에 관해서 말하려면 다른 정보가 필요합니다. 챌린저호는 기존의 데이터들보다 한참 낮은 온도인 화씨 31도가량에서 발사되었고, 이는 가지고 있던 최솟값을 벗어나는 데이터였습니다.

 

다크 데이터를 어떻게 이용하는가?

 그렇다면 여러분은 이제 이렇게 말할지도 모릅니다. 우리 주변에 다크 데이터가 그렇게 많다면, 다크 데이터에 어떻게 대처해야 하나요? 다크 데이터를 이용할 수는 없나요? 지금부터는 빠진 데이터를 이용하는 방법을 알아보겠습니다.

 먼저 데이터가 빠져 있는 상황을 가정해봅시다. 전체 데이터를 얻는 데 실패했다면, 다음으로 할 수 있는 일은 데이터가 왜 빠졌는지를 이해하고, 대체할 방법을 찾는 것입니다. 하나의 방법으로는 모든 특성에 대한 측정값이 있는 데이터만을 이용하는 방법입니다. ‘완전사례분석’이라고 불리는 이 방법은 데이터가 누락될 확률이 관찰되거나 관찰되지 않은 데이터와 아무런 연관성이 없다고 가정할 경우 타당합니다. 하지만 불완전한 데이터만 존재한다면 사용할 수 없는 방법이기도 합니다. 또 하나의 방법은 우리가 가진 모든 데이터를 사용하여 빠진 값을 추산하는 것입니다. 100개의 응답 중 나이가 기록된 응답이 96개라면, 이 96개의 응답만을 이용해 평균 나이를 추산하는 방법입니다. 그러나 누락된 값들이 기록된 값들과 눈에 띄게 다르다면 이 방법을 사용할 수 없습니다. 세 번째 전략은 어떤 특성들이 빠졌는지에 따라 기록을 분류한 뒤 분석하는 방법입니다. 가령 기록에서 나이가 빠진 사람들은 나이가 기록된 사람들과 별도로 분류하여 분석할 수 있습니다. 하지만 이 방법은 하나의 요약된 결론을 내기는 어렵습니다. 마지막 방법은, 그저 인내심을 가지고 빠진 데이터를 지속해서 조사하는 방법입니다. 슬프게도 언제나 가능한 방법은 아니죠.

 그렇다면 데이터를 채워 넣는 방법은 어떨까요? 이렇게 빠진 값들을 대신할 값을 삽입해 데이터를 완성하는 전략을 대치법(imputation)이라고 합니다. 가장 흔한 대치법 중 하나는 빠진 값을 기록된 값들의 평균으로 대체하는 평균 대치법입니다. 그러나 빠진 값들의 경향이 다를 가능성을 무시할 수 없고, 실제로 값들이 모두 동일할 가능성도 몹시 낮습니다. 이를 대신할 방법으로 다중 대치법이 있습니다. 대치법의 문제는 대치되는 값을 바꿀 때마다 다른 결과가 나오는 것입니다. 다중 대치법은 오히려 이러한 점을 이용하여, 서로 다른 대치 값들을 이용해 대치를 여러 번 반복한 뒤, 완전해진 데이터 세트 각각에 대한 요약 통곗값들의 분포를 얻어냅니다. 그런 다음 요약 통계의 불확실성이나 분산과 같은 매개변수를 추산하여, 그 분포가 가질 수 있는 값들이 얼마나 확실한지 알아냅니다. 이 전략은 빠진 데이터 문제를 공략하기 위해 널리 사용되어 왔습니다.

 

 다크 데이터는 단점만 있는 것처럼 보입니다. 물론 우리는 다크 데이터를 경계해야 합니다. 하지만 우리가 신중하기만 하다면 앞서 소개한 몇 가지 방법처럼 값이 누락된 데이터를 이용하거나, 결정을 내릴 때 이롭게 사용할 수 있는 방법도 존재합니다. 그러니 끊임없이 질문합시다. “우리가 모르는 데이터가 무엇일까?”

 

*p-해킹(p-hacking): 논문을 작성할 때 사용되는 통계적 방법 중 하나로, 데이터를 수집한 뒤 통계적으로 유의한 결과만을 이용해 패턴을 찾는 행위.

저작권자 © 카이스트신문 무단전재 및 재배포 금지