학술부는 이번 500호를 맞아 특집을 준비했다. 기존에는 한 기사에 하나의 연구만을 다뤘다면, 이번 <연구실 심층 인터뷰> 특집에서는 전반적인 연구의 흐름과 이를 이끄는 교수들의 이야기를 담을 예정이다. 우리 학교 전산학부 오혜연 교수와 첫 인터뷰를 진행했다.
 

오혜연 교수 (홍보실 제공)
오혜연 교수 (홍보실 제공)

 

 오혜연 교수는 매사추세츠공과대학(MIT)에서 수학을 전공했다. 카네기 멜런 대학교(CMU)에서 언어 및 정보 기술 석사학위를 받은 뒤, 매사추세츠공과대학(MIT)에서 컴퓨터 과학 분야 박사 학위를 취득했다. 현재는 우리 학교 전산학부의 교수이자 MARS 인공지능 통합연구센터 소장을 맡고 있다. 

 오혜연 교수의 KAIST Users & Information 연구실은 데이터를 분석해 알고리즘으로 해결할 수 있는 사회과학적 문제를 찾는다. 이어서 이러한 문제를 해결하기 위해 새로운 기계학습 알고리즘을 개발한다. 특히 텍스트 마이닝 기법을 도구로 네트워크상의 산재하는 대용량 데이터에서 의미있는 패턴을 찾아내는 연구를 수행한다.


Q1 안녕하세요, 본인에 대한 짧은 소개 부탁드립니다. 

 저는 'Users and Information 연구실'의 오혜연 교수입니다. 학부 때는 수학을 전공으로 공부했습니다. 석사 때부터 컴퓨터 공학, 계산 언어학 등에 관심을 가지기 시작했고, 지금은 AI, 언어와 자연어 처리(NLP)를 다루는 연구를 하고 있습니다.

Q2 수학과를 전공하셨다고 하셨는데 어떤 계기로 언어학, 컴퓨터 공학에 관심을 두게 되었는지 궁금합니다.

 수학이 좋아 수학과에 진학했습니다. 하지만 진로에 대한 고민이 끊이지 않았습니다. 대학 수학이 너무 어렵기도 했고요. 그러던 도중, MIT의 스티븐 핑커 교수의 랩에서 인턴 연구를 진행할 기회를 얻게 되었습니다. 인턴을 하며 언어학이 굉장히 흥미롭다는 생각이 들었습니다. MIT가 언어학을 연구하는 방법이 굉장히 체계적이고 과학적이었기 때문입니다. 그 뒤부터 언어학 수업 등을 찾아 듣기 시작했습니다. 언어학을 공부하다 보니, 자연스레 언어를 다루고 이해하는 도구인 NLP와 컴퓨터 공학 등에 뜻을 두게 되었습니다. 

Q3 연구 분야인 'Users and Information'은 주로 어떤 연구를 다루나요? 

 말 그대로입니다. 사용자들에게 정확히 필요한 정보를 전달해주는 것이 목표입니다! 이를 위해선 사람들에게 무슨 정보가 필요한지, 이에 해당하는 정보가 존재는 하는지 등을 모두 알아야 합니다. 이 연결고리가 바로 언어라고 생각합니다. 정보가 기록되고 전달되는 수단이 바로 언어니까요. 이러한 언어를 과학적이고 공학적인 도구로 접근하는데요. 우리 연구실은 언어라는 것에 대하여 단순한 공학적인 측면(예를 들어서 NLP라던가 언어 모델링)에서만 보지 않습니다. 실제로 사람들은 언어를 어떻게 사용하고, 그 언어 모델링은 사회적으로 어떤 의미가 있는지 사회적인 의미를 찾으려고 노력합니다.

Q4 가짜 뉴스를 판별하는 모델을 최초로 만드신 것으로 알고 있습니다. 이처럼 사회적인 문제를 계산 언어학 또는 전산학적으로 접근하시는데요. 연구하신 다른 예들을 들어주실 수 있을까요?

 우선 두 가지 연구를 들고 싶습니다. 첫 번째는 민족 혐오에 관한 연구입니다. 민족마다 타민족에 대한 특정한 고정관념을 가지고 있습니다. 이러한 편견이 바로 언어 모델에 묻어납니다. 예를 들겠습니다. 일단 언어마다 데이터를 모아 언어 모델링을 합니다. 그리고 “A는 전범 국가다” 등의 문장에서 A에 어떤 국가가 산출될지를 살펴봅니다. 놀랍게도 나라마다 확률 분포가 다양합니다. 한국에서는 일본이 가장 높고, 미국에서는 이라크가 가장 높습니다. 이처럼 언어 모델이 언어에 따라 특정 민족에 대한 편견이나 혐오가 있음을 발견했습니다. 그 뒤에는 언어 모델이 보이는 혐오적 편향성을 어떻게 하면 해결할 수 있을지 고민했습니다. 저희가 제안한 해결책은 쉽게 말해, 섞는 것입니다. 위에서 말했듯이 문장에서 단어를 산출할 때 문화마다 다른 민족적 혐오감이 반영됩니다. 그 비율은 나라마다 다르게 나타나고요. 혐오를 보이는 모델들을 적절히 섞으면 그 양상이 낮아져 비율이 평평한 모습을 보이게 됩니다. 이 방법에도 한 가지 문제가 있습니다. 혐오를 교정하는 과정에서 다른 영역에서도 정확도가 하락하게 됩니다. 이제 앞으로 해야 할 일은 언어 모델에서 혐오와 같은 비윤리적인 특성을 제거하면서도, 동시에 정확도는 더욱 높이는 방법을 찾는 것입니다.

 두 번째는 법안에 관한 연구입니다. 민주주의 절차에 관한 연구라고 할 수 있습니다. 미국과 같은 국가에서는 로비가 합법입니다. 하지만 로비 내용 등을 모두 공개하게 법으로정해져 있습니다. 이 데이터들을 이용하는 것입니다. 해당 문서들을 잘 분석하면 어떤 로비활동이 어떤 법안과 연관되어 있는지 네트워크를 그릴 수 있습니다. 최종적으로 민주주의 국가가 이익집단 대변자 역할만을 수행하는지, 국민의 목소리를 잘 반영하는지 등을 알 수 있습니다. 즉 로비와 법안 데이터로 민주주의가 잘 돌아가는지 살피는 연구라고 할 수 있습니다. 한국도 로비는 아니지만, 법안 발의와 같은 데이터가 많이 공개되어 있습니다. 이를 연구하는 것도 굉장히 흥미로울 것입니다.

Q5 연구 도중 느꼈던 아쉬운 점은 무엇이었나요?

 대학에서 하는 학술 연구에 있어서 두 가지의 아쉬운 점이 있습니다.
첫 번째는 대학 연구의 한계점입니다. 요새 기업에서 하는 연구가 대학 연구보다 수준이 더 높곤 합니다. 구글의 딥마인드 등이 그렇습니다. 이유는 소위 말하는 컴퓨팅 자원과 같은 기술적 환경이 더 좋기도 하고, 높은 봉급으로 인력들이 기업에 쏠리기 때문입니다. 대학에서 꿋꿋이 학문하는 과학자를 길러내고 유지하기가 힘든 것 같습니다.

 다른 한 가지는 연구자 커뮤니티의 특성입니다. 연구 결과를 ‘빨리’ 논문으로 ‘많이’ 내야 한다는 경쟁이 심합니다. 특히 AI 분야가 과열되어 가는 것 같습니다. 숫자로 평가하는 연구 경쟁을 다들 힘들어합니다. 그래서 KAIST 전산학부만큼은 다른 철학을 유지하려고 노력합니다. 교수는 연구를 잘하면 됩니다. 교수 임용, 승진 때는 논문 수가 아니라 좋은 연구를 했는가에 비중을 둡니다. 이처럼 학문에 뜻을 두고 좋은 연구를 하는 학생들이 앞으로도 많이 있었으면 합니다.

Q6 카이스트 학(부)생들에게 꼭 필요한 조언을 뽑으라면 무엇이 있을까요?

 지식을 사용해서 내가 사회에 도움이 되고 있다는 느낌을 받았으면 좋겠습니다. 선생님이 될 수도 있고, 대기업에 가서 일을 할 수도 있습니다. 하지만 어떤 일을 하든지 실제로 공동체에 도움이 되는 일을 하고, 이로운 일을 하고 있다는 확신을 꼭 받았으면 합니다.

 두 번째는 한계를 짓지 않기를 원합니다. 요새는 경력과 연구 분야가 평생 가는 사람을 찾기가 더 어렵죠. 빠르게 변화하는 현재에서는 배우는 것에 열려 있어야 합니다. 지금까지 다뤘던 도구가 아니라고 해도 겁 없이 달려들고 배움을 계속 즐겼으면 좋겠습니다.

저작권자 © 카이스트신문 무단전재 및 재배포 금지