전기및전자공학부 한동수 교수 연구팀 : BWA-MEME: BWA-MEM Emulated with A Machine Learning Approach

 우리 학교 전기및전자공학부 한동수 교수 연구팀이 머신러닝을 접목한 유전체 정렬 소프트웨어를 최초로 개발했다. 연구팀은 연산량을 대폭 줄이면서도 표준 유전체 정렬 소프트웨어와 동일한 정확도를 유지했다. 해당 기술은 오픈소스로 공개돼 유전체를 분석하는 작업에 널리 활용될 것으로 기대된다.

 

차세대 염기 서열 분석 방법(NGS)

 차세대 염기서열 분석은 유전체 정보를 해독하는 2세대 기법으로, 가장 널리 사용되는 유전체 분석 방법이다. 분석은 다음과 같은 순서로 진행된다. 먼저, 목적이 되는 유전체를 무수히 많은 조각으로 잘라내고 염기 서열을 읽는다. 그 이후에는 자른 유전체 조각 데이터가 유전체 내에서 어디에 위치하는지를 알아내어 하나의 유전체로 조립한다. 이는 인간의 유전자 지도가 0.1~1% 정도를 제외하고는 모두 일치하기 때문에 가능하다. 유전체 조각을 참조 유전체(reference genome)와 비교, 공통되는 부분을 찾으면 조각의 본래 위치를 알아낼 수 있다. 이 과정을 모두 거치면 최종적으로 염기 서열을 모두 파악한 하나의 유전체가 조립된다.

 

유전체 정렬 소프트웨어

 차세대 염기 서열 분석 방법에서 자른 유전체 조각들을 하나의 유전체 정보로 조립하기 위한 소프트웨어가 유전체 정렬 소프트웨어다.

 유전체 정렬 작업은 정렬해야 하는 유전체 조각의 양이 많고 참조 유전체의 길이도 길어 많은 연산량이 요구되는 작업이다. 또한, 유전체 정렬 소프트웨어에서 정렬 결과의 정확도에 따라 추후의 유전체 분석의 정확도가 영향을 받는다. 따라서 유전체 정렬 소프트웨어는 빠른 연산 속도와, 높은 정확도 모두를 필요로 한다.

 일반적으로 유전체 분석에는 하버드 브로드 연구소(Broad Institute)에서 개발한 유전체 분석 도구 키트(Genome Analysis Tool Kit, 이하 GATK)를 사용한다. 이들 키트 중 BWA-MEM은 GATK에서 표준으로 채택한 유전체 정렬 소프트웨어이며, 2019년에 하버드 대학과 인텔(Intel)의 공동 연구로 BWA-MEM2가 개발됐다.

 

머신러닝 기반 유전체 정렬 기술

 연구팀은 머신러닝 기반의 유전체 정렬 소프트웨어를 개발했다. 이를 통해 연산량을 대폭 줄이면서도 표준 유전체 정렬 소프트웨어 BWA-MEM2과 동일한 정확도를 만들어 냈다.

 구체적으로는 머신러닝 기반의 인덱싱 기법(Learned-index)을 유전체 정렬 소프트웨어에 적용했다. 사용한 머신러닝 기반의 인덱싱 기법은 주어진 데이터의 분포를 머신러닝 모델이 학습해, 데이터 분포에 최적화된 인덱싱을 찾는 방법론이다.

 BWA-MEM과 BWA-MEM2에서 사용하는 인덱싱 기법(FM-index)은 유전자 조각의 위치를 찾기 위해 유전자 조각 길이만큼의 연산이 필요하다. 그러나 연구팀이 제안한 알고리즘은 유전자 조각 길이와 상관없이 적은 연산량으로도 유전자 조각의 위치를 찾을 수 있다. 연구팀이 제안한 인덱싱 기법은 기존 인덱싱 기법과 비교해 3.4배 정도 가속화됐고, 이로 인해 유전체 정렬 소프트웨어는 1.4배 가속화됐다.

세계 최초 머신러닝 유전체 정렬 소프트웨어 개발 | 인덱싱 기법(Learned-index) 머신러닝 모델에 유전체 조각을 입력하면, 모델이 위치를 예측한다. 이어서 예측된 위치와 에러 값을 이용하여 이진 탐색 범위를 설정한다. 이후 이진 탐색을 진행해 정확한 위치를 찾아 정렬한다. (한동수 교수 제공)
세계 최초 머신러닝 유전체 정렬 소프트웨어 개발 | 인덱싱 기법(Learned-index) 머신러닝 모델에 유전체 조각을 입력하면, 모델이 위치를 예측한다. 이어서 예측된 위치와 에러 값을 이용하여 이진 탐색 범위를 설정한다. 이후 이진 탐색을 진행해 정확한 위치를 찾아 정렬한다. (한동수 교수 제공)

 해당 기술은 유전체 빅데이터 분석을 기존 방식보다 빠르고 적은 비용으로 할 수 있다는 것을 보였으며, 유전체 분석에서 사용되는 다양한 소프트웨어를 머신러닝 기술로 가속하는 연구들의 시작점이 될 것으로 기대된다.

 끝으로 제1 저자인 정영목 박사과정은 “충분히 학부생 때 유의미한 연구를 할 수 있다”라며 관심 있는 연구에 과감히 뛰어들라는 말을 전했다. 또한 한 교수는 “자기 자신을 명확하게 이해하는 시간을 가지는 것이 중요하다”라며 본인에 대한 깊은 신뢰를 기반으로 도전하라는 격려의 메시지를 전했다. 

저작권자 © 카이스트신문 무단전재 및 재배포 금지