기자라는 직업군이 갖는 영향력은 그 범위와 대상이 남다르다. 과거부터 신문이라는 거의 유일무이한 대중매체는 여론의 흐름을 주도해왔다. 언론 탄압의 역사가 여러 번 되풀이된 것도 신문이라는 매체의 영향력이 여전히 유효했기 때문에 가능했던 비극이었다. 컴퓨테이셔널 저널리즘(Computational Journalism)의 등장은 기자라는 직업, 신문이라는 대중매체에 전혀 새로운 질문을 던지고 있다. 컴퓨테이셔널 저널리즘이 제시하는 새로운 형태의 저널리즘과 관련 이슈들을 다룬다.

이젠 로봇이 신문 기사를 쓴다. 꽤 파격적인 사실일 수 있으나, 이미 3년 전 LA타임스는 로봇이 쓴 지진 관련 기사를 신문에 보도하기도 했다. 관련 기술의 발전은 이미 첫발을 뗀 지 오래라는 뜻이다. 하지만, 로봇이 기사를 쓰는 컴퓨테이셔널 저널리즘을 모든 기사에 적용하는 데에는 여전히 여러 상반된 견해가 존재한다. 대표적인 예로 로봇이 쓰는 기사는 완벽히 중립적이라고 주장하는 전문가들이 있는 반면, 기사를 쓰는 기계적 알고리즘을 인간이 완벽히 분석할 수 없는 만큼, 중립 여부는 아직 미지수라는 입장의 전문가들도 많다. 새로운 형태의 컴퓨테이셔널 저널리즘이 무엇인지, 그리고 이와 관련된 기술적, 철학적 이슈들을 다룬다.

 

저널리즘(journalism)이란 대중에게 시사적인 정보와 의견을 제공하는 활동을 뜻한다. 정보화 시대에 들어서면서 대중이 정보, 그중에서도 언론의 보도를 접하는 경로는 다양해졌다. 하지만 단순히 이를 컴퓨테이셔널 저널리즘의 시작이라고 볼 순 없다. 컴퓨테이셔널 저널리즘이 무엇인지 그 정확한 정의를 아는 사람은 드물다.

기존 저널리즘은 팩트에 집착한 나머지 그 팩트가 가져올 긍정적, 부정적 전망을 보여주지 못한다는 지적을 꾸준히 받아왔다. 이 때문에 새로운 패러다임의 저널리즘은 항상 요구되었고, 그 결과 등장한 것이 컴퓨테이셔널 저널리즘이라는 전문가들의 분석이 많다. 컴퓨테이셔널 저널리즘이 ‘뉴저널리즘’ 혹은 ‘혁신 저널리즘’이라고 불리는 이유가 바로 여기에 있다.

하지만 이런 단순한 등장 배경만으로 컴퓨테이셔널 저널리즘을 정의 내리기는 힘들다. 관련 분야를 연구하는 전문 기관들이 공식적으로 발표한 정의는 크게 좁은 의미, 넓은 의미에서 2가지로 요약된다. 미국 컬럼비아대학교 저널리즘스쿨은 컴퓨테이셔널 저널리즘을 ‘보도의 정확성, 객관성 등 저널리즘의 전통적 가치를 지키면서도 컴퓨터의 기술적 방법론을 저널리즘의 정보 수집, 가공, 그래픽화, 뉴스 보도 등의 과정에 응용하는 것’이라고 정의했다. 반면, 저명한 저널리스트 조너선 스트레이(Jonathan Stray)는 ‘컴퓨테이셔널 저널리즘은 비단 언론에서만이 아니라 기업, 정부 등에서 행하는 모든 정보 전달 행위에 적용되는 개념으로, 사회과학, 인지과학 등 여러 분야가 융합된 것’이라고 좀 더 광범위한 범위 안에서 관련 개념을 정의했다. 좀 더 명확한 흐름을 위해 본 기사에서는 언론 영역에 컴퓨테이셔널 저널리즘을 제한한 전자의 정의에 초점을 맞추도록 한다.

 

컴퓨테이셔널 저널리즘의 개괄적 시작은 1952년 11월 4일 실시된 제34대 미국 대통령 선거이다. 당시 CBS TV는 단 1%의 표본 분석을 통해 다른 언론사들보다 훨씬 먼저 아이젠하워의 당선을 예견했다. 이는 펜실베이니아대학교 프레스퍼 에커트(Presper Eckert) 교수 연구팀에서 개발한 ‘유니박’이라는 상업용 컴퓨터를 이용한 성과였다. 빠른 투표 결과 분석은 곧 해당 언론의 경제적 성장으로 이어졌고, 이 때문에 많은 언론사는 기계가 추출해내는 정보를 기사에 담는 데 관심을 기울이기 시작했다.

시작은 단순히 투표 결과를 빠르게 분석하는 데 불과했지만, 스타트업 ‘내러티브사이언스(Narrative Science)’에서 처음으로 스포츠 게임 데이터를 분석해 기사 텍스트 전체를 완성하는 프로그램을 개발하면서 컴퓨테이셔널 저널리즘을 바라보는 시각은 초기와 완전히 달라졌다. 기자라는 직업의 전망을 불투명하게 만든, 누군가에겐 부정적인 성과이기도 했기에 내러티브사이언스의 연구가 가져올 영향력에 대해 당시 관련 업계의 의견은 분분했다.

하지만, 새로운 저널리즘의 장점이 단점보다 부각되며, 이후 단순한 알고리즘으로 분석이 가능한 스포츠, 금융권 관련 기사들이 속속들이 기계에 의해 작성되기 시작했다. 스포츠 경기 결과나 주식 매매 수치 등은 오히려 사람보다 기계에게 데이터 분석을 맡길 때, 보다 정확한 기사 작성이 가능했다.

 

컴퓨테이셔널 저널리즘이 사용하는 기사 작성 방법론은 생각보다 다양하다. 기사와 관련된 데이터를 모으고, 분석하고, 어떤 흐름으로 표현해낼지는 각 방법론에 따라 다르다. 다만, 대부분의 방법론은 텍스트 마이닝(Text Mining)을 거친다는 공통점을 갖는다.

텍스트 마이닝은 크게 텍스트 분류, 텍스트 클러스터링, 개념 추출, 세분화된 분류, 정서 분석, 문서 요약, 개념 관계 모델링 등의 단계를 거친다. 즉, 텍스트 마이닝은 텍스트라는 큰 단위의 정보를 작은 단위의 정보로 세분화하는 과정이라고 볼 수 있다.

우리가 접하는 정보 중 활용도가 높은 정형 데이터의 비율은 20% 정도로, 나머지 80%는 프레젠테이션, 소셜 데이터 등 비정형 데이터의 형태로 존재한다. 단순히 말해 정형 데이터는 통계적 분석에 사용될 수 있는 가공된 정보이고, 비정형 데이터는 동영상, SNS 등에 포함된 날것의 데이터로 반드시 가공 과정이 선행되어야 하는 정보이다. 컴퓨테이셔널 저널리즘은 기본적으로 비정형 데이터를 텍스트 마이닝을 통해 정형 데이터로 전환한 뒤, 이를 대상으로 기사를 작성한다. 정형화된 데이터는 앞서 언급했듯이, 여러 방법론 중 하나를 거쳐 기사화된다.

텍스트 마이닝의 대표적인 방법론으로는 토픽 모델링이 있다. 토픽 모델링에서는 특정 주제에 관한 단어를 추려내는 과정이 핵심이다. 우리가 분석하고자 하는 단어들의 집단을 W, 주어진 주제의 집단을 T라고 하면, W와 T가 가장 높은 확률로 동시에 가리키는 또 다른 집단 D를 알아내는 것이 토픽 모델링 알고리즘의 기본 체계이다. 각 D 벡터를 스토리 발견 엔진(Story Discovery Engine)에 넣으면 자동으로 이야기 드래프트가 생성되고, 이 드래프트는 최종적으로 사람, 즉 기자의 수정 작업을 거쳐 편집 담당자에게 송고된다.

기존 기사 작성 방법과 유사한 텍스트 마이닝의 알고리즘 아래, 새로운 패러다임의 기사 작성 방법을 제시한 오피니언 마이닝도 주목할 만하다. 이는 신문 기사를 작성하기 전, 민감한 사안에 대한 독자들의 생각이나 감정을 미리 조사할 때 이용된다. 온라인에 업로드 된 신문 기사에 달린 댓글이나 기타 SNS 등이 분석 대상이다. 오피니언 마이닝이 기자가 자신의 기사에 달린 댓글을 살펴보는 것과 다른 바 없다고 생각할 수도 있겠다. 하지만 오피니언 마이닝이 다루는 데이터의 양 자체는 사람의 사고를 거치는 데이터의 양과 비교할 수 없을 정도로 방대할뿐더러, 단순히 글만 보고 인간이 잡아낼 수 없는 필자의 미묘한 감정 혹은 의견까지도 분석할 수 있기 때문에 이는 엄연히 기존에 불가능했던 획기적인 기사 작성 방법이라고 볼 수 있다.

텍스트 마이닝 중 하나인 토픽 모델링, 오피니언 마이닝 말고도 대중의 참여를 모든 창작의 기반으로 하는 크라우드소싱 등도 컴퓨테이셔널 저널리즘의 카테고리 중 하나로 분류되고 있다.

 

현재까지 우리나라에서 직접적인 적용 사례를 찾아보기는 힘들지만, 컴퓨테이셔널 저널리즘이 국제적으로 주목받고 있는 흐름임은 분명하다.

우선 이전에도 언급한 LA타임스의 로스앤젤레스 지진 보도는 가장 초기의 컴퓨테이셔널 저널리즘으로, 관련 속보를 내보내는 데까지 기자가 한 일이라곤 사실 여부를 확인한 후, 보도를 확정 짓는 것밖엔 없었다. 해당 언론은 로스앤젤레스 주변의 지진 정보를 실시간으로 수집하고, 진도 3.0 이상의 충격에는 자동으로 기사를 작성하는 ‘퀘이크봇(Quakebot)’을 사용해 성공적으로 로봇 저널리즘의 시작을 끊을 수 있었다. 실제로 LA타임스는 당시 미국 서부 언론 중 가장 빠르게 관련 속보를 내보냈다. 물론 기존 스트레이트 기사의 형식에 새로운 데이터 값만 배치하는 간단한 알고리즘을 거친 글이었지만, 앞으로의 기술발전으로 기사의 정확성만 완벽하게 보장된다면 사람을 일절 거치지 않고 속보를 내보낼 수 있다는 점에서 의의가 깊다.

미국의 벤처기업인 오토메이티드인사이트(Automated Insights)는 ‘워드스미스(Wordsmith)’라는 로봇 기자를 개발했다. 사람이 적어 내려간 글 속에는 필자의 사상이나 개성이 드러나기 마련인데, 놀랍게도 이 로봇 저널리즘 기계는 사람처럼 특정 문체를 갖고 있다. 워드스미스가 기계가 아닌 로봇 기자라고 불리는 이유다. 단순히 데이터를 수집하는 것을 넘어서서 독자가 관련된 기사에 어느 정도의 관심을 가질지 예측할 수 있다는 장점도 있다. 다양한 관점에서 팩트를 바라봄으로써 중립적인 기사를 쓸지, 아니면 하나의 관점에 팩트를 가두어 편향된 기사를 쓸지 기사의 방향성까지 자유자재로 선택이 가능하다. 때문에, 의도적으로 특정 독자층을 겨냥하기 쉽다.

앞서 언급한 두 사례가 기자의 역할을 줄여준다면, 이번 사례는 기자의 영역을 넘어 사람이 접근할 수 없는 범위의 정보를 전달하는 컴퓨테이셔널 저널리즘의 예이다. 미국 시애틀타임스의 피벗테이블(Pivot Table)은 결과를 가장 효율적인 방법으로 시각화하는 ‘태블로(Tableau)’라는 프로그램을 개발했다. 태블로를 거치면 데이터 분류만으로는 파악하기 힘들었던 정보들이 시각화됨으로써 새로운 의미로 표출되어 독자들에게 전달될 수 있다. 지리정보를 분석해 이미지로 변환해주는 ‘아크GIS(ArcGIS)’는 그 대표적 예로, 시애틀타임스는 미국 워싱턴주의 스노호미시카운티에서 발생한 산사태의 원인을 이 프로그램을 통해 밝힌 뒤, 보도 자료에 실을 수 있었다.

현장에서 촬영한 사진이 기사에 사용된다는 점에서 우리에게 친숙한 드론도 컴퓨테이셔널 저널리즘의 카테고리 안에 포함된다. 드론 저널리즘 또한 기자의 영역을 넘어서 사람이 접근할 수 없는 범위의 정보를 전달하는 컴퓨테이셔널 저널리즘의 한 종류이다. 재난 현장에 드론을 날려 이재민들의 상황을 시시각각 대중에게 전달할 때, 멸종 위기 생물의 경로를 추적해 환경 오염 단체의 현실을 폭로할 때 등 드론 저널리즘은 생각보다 다양한 기사의 소재들을 발굴해냈다.

하지만, 드론 저널리즘의 경우 촬영 여부를 카메라 안에 들어온 모두에게 알릴 수 없어 취재 대상이 아닌 개인의 사생활을 침해한다는 단점이 있다. 실제로 미국 항공위원회에서는 상업적 이용을 명분으로 한 드론의 사용을 제한하고 있기도 하다. 드론 저널리즘의 보다 넓은 상용화를 위해서는 관련된 윤리적 문제들에 대한 합의를 먼저 도출해내야 한다.

 

아직 컴퓨테이셔널 저널리즘이 사용하는 알고리즘은 기자의 역할을 대체하기에 턱없이 부족하다. 하지만 알고리즘으로 작성하는 기사 수가 늘어날수록, 컴퓨테이셔널 저널리즘의 가능성은 커질 전망이다. 다량의 데이터로부터 높은 수준의 모델을 구축하는 딥러닝의 원리만 생각해도 데이터의 축적이 가져올 변화는 상상 이상이다.

언론이 보도를 담보로 대중과의 관계에서 우위를 점치는 시기는 지났다. 결국, 컴퓨테이셔널 저널리즘의 종착점은 사용자 중심의 저널리즘이 될 것이라는 전망이 이어지고 있다. 아직까진 언론 행위의 하나의 수단으로 컴퓨테이셔널 저널리즘이 사용되고 있지만, 시간이 흐를수록 그 위치는 언론 행위 자체가 될 것이라는 예측이 많다. ‘기자가 쓰는’ 기사가 아닌 ‘독자가 읽는’ 기사가 중요하게 다뤄질수록, 사람이 쓰는 기사는 알고리즘을 통해 기계적으로 작성된 기사로 대체될 확률이 높아진다.

 

“백인식이 선발로 등판한 SK는 이태양이 나선 NC에게 6:8로 패하며 안방에서 승리를 내주었다. 경기의 승패에 결정적인 영향을 미친 키 플레이어는 손시헌이었다. 손시헌은 4회초 SK 고효준을 상대로 3점을 뽑아내어 팀의 승리에 결정적으로 기여했다. SK는 임창민을 끝까지 공략하지 못하며 안방에서 NC에 2점차 승리를 내주었다. 한편 오늘 NC에게 패한 SK는 4연패를 기록하며 수렁에 빠졌다”

위 기사는 실제로 로봇이 작성한 기사의 일부이다. 이 인용만 보아도 현재 로봇 저널리즘의 위치를 쉽게 짐작할 수 있다. ‘결정적으로’, ‘수렁에 빠졌다’ 등 상당히 자연스러운 표현을 자유자재로 구사하는 것은 물론이고, ‘6:8’, ‘4연패’ 등 구체적인 수치에 있어서는 오히려 기자가 작성하는 기사보다 오류가 날 확률이 적다.

지난 2015년 한국언론진흥재단에서 진행한 한 연구 결과는 꽤 인상적이다. 해당 연구는 일반인을 대상으로 기자가 작성한 기사와 로봇이 작성한 기사를 각각 읽게 한 뒤, 둘을 구분할 수 있는지 물었다. 놀랍게도 대부분의 사람들은 로봇과 사람이 쓴 기사를 가려내지 못했다. 심지어 대다수의 사람들이 로봇이 쓴 기사에 대해 정보성, 신뢰성, 전문성, 명확성 항목에 더 높은 점수를 매긴 것으로 드러났다.

또한, 로봇이 쓴 기사에 대해 어떻게 생각하느냐는 질문에 많은 사람들은 기자의 편견이 배재된 객관적인 뉴스를 접할 수 있어 긍정적으로 생각한다는 응답을 내놓았다. 같은 연구를 네덜란드 틸뷔르흐대학교 힐레 판데르카(Hille Vanderkey) 교수 연구팀도 진행했는데, 결과는 한국언론진흥재단에서 얻은 것과 정확히 일치했다. 일반 대중은 컴퓨테이셔널 저널리즘에 대해 긍정적인 인식을 갖고 있음이 언급한 연구 외에도 다양한 연구를 통해 상당 부분 증명되었다.

 

아직 우리나라에서는 신문이라는 매체가 갖는 영향력, 그리고 그 속에서 기사를 쓰는 기자의 역할이 중요하게 여겨지고 있다. 하지만 앞으로는 기자와 언론사의 결정권자만이 기사를 구성한다면 신문은 내용, 속도 모든 면에서 다른 매체에 비해 뒤처질 수밖에 없다. 이는 대중이 취급할 수 있는 정보가 다양해지면서 마주칠 수밖에 없는 필연적 상황이다.

뉴욕타임스 등 해외 언론사들과 달리, 통계 및 데이터 분석 기관을 언론사 자체에서 운영하는 경우는 국내에 아직 없다. 전통 저널리즘만이 갖는 가치와 의미도 물론 중요하지만, 이제는 그 가치를 조금은 잊고 새로운 흐름을 받아들여야 할 때가 아닐까 짐작된다. 아직까진 언론 행위에 단순히 수단으로만 이용되고 있는 컴퓨테이셔널 저널리즘이지만, 언제까지 이 분야가 수단에 머무를지는 알 수 없다. 어쩌면 빠른 시일 내, 변화의 바람이 불 수도 있겠다.

저작권자 © 카이스트신문 무단전재 및 재배포 금지