요즘 IT 관련 업계 최고 화두는 ‘빅데이터’다. 박성현 신임 한국과학기술한림원장은 지난 20일 “미래창조과학부에 전담부서를 두고 정부 차원에서 빅데이터를 활용할 필요가 있다”라고 말한 바 있다.

페이스북 ‘알 수도 있는 사람’ 목록에서부터 대통령 선거 예측까지, 빅데이터는 다양한 분야에 사용되고 있다. 심지어 2011년 5월 부산에서 아내를 살해한 혐의로 구속된 한 남자는 포털사이트에서 ‘사체 없는 살인’이란 검색어를 입력한 흔적이 발견되어 용의 선상에 올랐다. 빅데이터가 무엇이고 어떤 영향력을 미치기에 이렇게 주목받고 있는 것일까?

 

정리되지 않은 데이터의 거대한 집합체

빅데이터는 수십 테라바이트에서 수 페타바이트에 해당하는, 과거와 차원이 다른 방대한 양의 데이터를 말한다. 빅데이터의 특징은 비정형 데이터가 차지하는 비율이 매우 높다는 것이다. 기존 데이터들은 정해진 형식에 맞추어 저장할 수 있는 정형 데이터였다. 예를 들어 우리 학교 학생들의 정보를 데이터로 만든다고 하자. 학생들의 이름, 나이, 출신 고등학교, 학과, 학점을 엑셀에서 표로 정리한 것이 대표적인 정형 데이터라고 할 수 있다. 반면 비정형 데이터는 정해진 형식이 없는 데이터다. 이메일이나 SNS 텍스트, 위치정보, 동영상 등이 해당된다. 비정형 데이터는 최근 스마트폰의 보급 때문에 급증했다. 사용자의 인터넷 이용 기록이나 위치정보 등이 실시간으로 저장되기 때문이다.

 

noSQL, 비정형 데이터를 관리하는 도구

빅데이터를 본격적으로 다룰 수 있게 된 것은 대규모 비정형 데이터 분산 처리 기술이 등장한 이후다. 이런 기반 시스템으로 손꼽히는 것이 noSQL이다. noSQL은 ‘not only SQL’의 약자로 비정형 데이터를 처리하기 위한 시스템이다. SQL은 사용자가 데이터베이스에 접근해 운용할 수 있도록 하는 표준 언어로, 정형 데이터를 처리하는 시스템인 RDBMS(Relational Data Base Management System)에 속한다.

RDBMS와 noSQL은 작업의 종류와 분산 시스템, 데이터 크기 측면에서 차이가 있다. RDBMS는 정형 데이터에 이미 정해져 있는 단순한 연산만 적용하기 때문에 속도가 빠르다. 우리가 엑셀에서 쉽게 덧셈, 곱셈 등의 연산을 할 수 있는 것이 그 예다. 또 RDBMS는 주로 한 대의 컴퓨터에서 사용하며, 테라바이트까지 처리 할 수 있다. 반면 noSQL은 페타바이트 크기의 데이터도 분석할 수 있다. 그리고 정해진 작업 형식이 없어 프로그래머가 원하는 작업을 수행하는 알고리즘을 그때그때 작성해서 입력해주어야 한다. 그런데 noSQL은 RDBMS와 달리 데이터를 수천, 수만 대의 컴퓨터에서 분산 처리하는 기술이기 때문에 프로그래머는 여러 대의 컴퓨터에서 동시에 작동되는 알고리즘을 작성해야 한다. 여러 대에서 작동되므로 작업 속도나 효율은 RDBMS보다 떨어지지만, 비정형 데이터를 가지고 다양한 작업을 할 수 있기 때문에 빅데이터 처리에는 주로 noSQL이 이용된다.

 

▲ 아마존 메인 화면=아마존은 빅데이터를 이용한 분석 기술을 토대로 고객에게 맞춤형 추천 상품을 제공한다. 아마존은 총 매출량의 35%를 이를 통해 올린다 /아마존 누리집 갈무리

프로그래머가 손쉽게 알고리즘을 작성하도록 도와줘

noSQL에서 사용하는 알고리즘은 복잡해서 프로그래머가 일일이 작성하기 어렵다. 이 과정을 수월하게 만들어준 소프트웨어가 맵리듀스(Mapreduce)다. 맵리듀스는 2004년 구글에서 개발한 소프트웨어로, 이후에 같은 원리의 오픈 소스 소프트웨어 하둡(Hadoop)이 개발되었다.

맵리듀스는 맵(map) 함수와 리듀스(reduce) 함수로 이루어져 있다. 맵 함수는 데이터를 한 줄씩 읽어가면서 프로그래머가 얻고자 하는 특정한 식별자(key)와 정보 값을 묶어서 튜플(tuple)로 저장한다. 식별자는 마치 사람의 주민등록번호처럼 데이터베이스에서 특정 데이터를 식별할 수 있는 유일한 값이다. 리듀스 함수는 맵 함수를 통해 얻은 값을 특정 식별자에 따른 정보 값으로 정렬한다. 예를 들어 과수원에서 하루의 수확량을 데이터로 입력하고, 이를 정부 차원에서 관리한다고 하자. 이때 과수원이 굉장히 많아 데이터를 분산 처리할 수밖에 없다고 가정한다. 각 과수원에서는 그날 수확한 과일의 이름과 개수를 입력한다. 프로그래머는 맵 함수를 이용해 식별자를 과일 이름으로, 정보 값을 그 과일의 개수로 추출한다. 그리고 리듀스 함수를 이용해 각 식별자에 따른 정보 값들을 각각 다른 컴퓨터에 분산해 저장한다. 한 컴퓨터에는 모든 과수원의 그날 사과 수확량이, 다른 컴퓨터에는 모든 과수원의 그날 배 수확량이, 또 다른 컴퓨터에는 모든 과수원의 그날 감 수확량이 저장되는 것이다.

맵리듀스를 이용하면 프로그래머는 맵 함수와 리듀스 함수만 코드를 작성하면 된다. 컴퓨터 분산 처리 등 그 외 다른 작업을 맵리듀스에서 해주기 때문에 프로그래머가 다양한 메인 알고리즘을 작성하기 훨씬 쉽다.

 

 ▲맵리듀스 소프트웨어 작동 원리 /송채환 기자

데이터에 숨겨진 정보를 알아낸다

비정형 데이터는 적은 양으로는 큰 분석 가치가 없다. 저장되는 정보 하나하나는 크게 중요하지 않은 정보이기 때문이다. 그러나 이것이 대량으로 모였을 때 나타나는 패턴 등을 통해 의미 있는 결과를 도출할 수 있다. 맵리듀스가 개발되면서 비정형 데이터 분석 기술을 대량의 데이터에 적용 가능해졌다. 비정형 데이터 분석 기술에는 텍스트 마이닝, 오피니언 마이닝 등이 있다. 텍스트 마이닝은 자연어로 구성된 비구조적인 텍스트 데이터에서 패턴이나 관계를 찾아내 유용한 정보를 추출, 가공하는 기술이다. 오피니언 마이닝은 웹사이트와 소셜미디어에 나타난 여론과 의견을 분석해 유용한 정보를 재가공하는 기술이다. 최근에는 기업들도 텍스트 마이닝과 오피니언 마이닝을 적극 활용하고 있다. 독일의 식칼 업체 헨켈은 자사의 식칼 판매량이 지속적으로 떨어지는 원인을 트위터 분석을 통해 찾아냈다. 헨켈은 수백만 건의 글을 살펴본 결과 주부들이 칼에서 나는 냄새를 싫어한다는 것을 알아냈다. 모든 제품의 향을 바꾸자 예전의 판매량을 회복할 수 있었다.

 

기업의 매출 전략으로 떠오르다

구글, 페이스북, 아마존 등 다양한 기업은 이미 빅데이터 기술에 관심을 가지고 이를 적극적으로 활용한다. 페이스북과 연동해 즐기는 소셜 게임 회사 징가 또한 데이터 분석을 이용한다. 이름, 성별, 친구 목록 등의 정보로 페이스북 사용자가 친구를 초대해 자신이 현재 하고 있는 게임에 참가시키는 시스템을 고안한 것이다. 아마존은 고객의 구매 이력과 웹 사이트 사용 기록을 바탕으로 상품을 추천하는 시스템으로 매출의 35%를 올리고 있다. 자라, 유니클로 등의 패스트패션은 실시간으로 공급망을 관리할 수 있는 체계를 만들어 세계적인 브랜드로 자리잡았다. 이 브랜드들은 전 세계 매장에서 판매와 재고 데이터를 실시간으로 분석해 유행 스타일을 빠르게 파악하고 이에 맞는 디자인을 생산한다.

 

개인 정보 보호에 대한 우려의 목소리도 있어

빅데이터는 분명 유용한 기술이지만, 사생활 정보가 노출될 수 있다는 우려를 받는다. ‘빅 브라더’가 존재한다는 공포감을 주는 것이다. 몇 월 며칠 몇 시에 어디에 누구와 있었는지, 누구와 전화를 했는지, 무엇을 먹었는지가 전부 기록으로 남는다. 컴퓨터를 켜서 어떤 웹페이지에서 무엇을 검색하고 무엇을 클릭했는지도 전부 저장된다. 그리고 그것이 다른 사람들에게 공개된다는 것 때문에 사생활 침해가 아니냐는 목소리도 나온다.

반면 익명으로 처리되기만 하면 연구를 하는 데에는 큰 지장이 없다는 의견도 있다. 오히려 우리나라 기업의 고객에 관한 정보를 공개하기 꺼리는 분위기가 빅 데이터 기술 활용을 늦춘 이유 중 하나가 되었다는 것이다.

정보 공개에 대해 보수적인 유럽에서는 데이터 보호법 개정안을 확정하는 등 관련 법안이 마련되고 있다. 개방적인 미국은 법적인 문제에서 비교적 자유로워 빅데이터 관련 사업자들이 큰 제약 없이 데이터를 사용한다. 그러나 우리나라는 데이터에 대해 보수적인 태도를 취할 것인지 개방적인 태도를 취할 것인지 정립되지 않았다. 관련 법제도 미비한 상황이고 논의도 제대로 시작되지 않았다. 국민들은 빅데이터와 관련 법률의 필요성에 대한 개념도 부족한 상태다.

 

우리 학교에서도 빅데이터와 관련해 많은 연구실에서 연구가 이루어지고 있다. 전산학과 강유 교수, 문화기술대학원 차미영 교수, 지식서비스공학과 이재길 교수, 이의진 교수 연구실에서 관련 연구가 진행되고 있다.

막대한 데이터를 통해 현상을 파악하고 패턴을 발견해 장래를 예측하는 모델은 최근 기업의 큰 관심을 받고 있다. 강유 교수는 “데이터는 앞으로도 계속해서 쌓일 것이며, 이를 활용하는 기술에 대한 수요와 관심이 늘어날 것이다”라고 전망했다.

 

 
저작권자 © 카이스트신문 무단전재 및 재배포 금지