효소의 기능 나타내는 EC 번호를 단백질 서열로부터 예측… 여러 신경망 조합해 기존보다 작은 용량으로 빠르고 정확히 계산 가능

생명화학공학과 이상엽 교수와 김현욱 교수 공동연구팀이 딥러닝 기술을 이용해 효소의 기능을 정확하고 신속하게 예측할 수 있는 컴퓨터 방법론인 DeepEC를 개발했다. 이번 연구는 지난 6월 20일 <미국 국립과학원 회보(PNAS)>에 게재되었다.

 

효소, 대사 매개하는 생화학적 촉매

대사(Metabolism)란 세포가 에너지를 만들고 사용하기 위해 거쳐야 하는 일련의 생화학 반응이며, 모든 생명체의 생존에 필수적인 생화학적 현상이다. 세포 안에는 효소라 불리는 단백질이 존재하는데, 이들은 생화학 반응의 기질에 결합해 생체 촉매로서 생화학 반응의 활성화에너지*를 낮춘다. 따라서 이들 생화학 반응을 효율적이며 유기적으로 일으키는 데에 중요한 역할을 담당한다. 효소들이 어떠한 생화학 반응에 관여하는지 정확히 밝혀내는 것은 대사 생화학 연구에서 매우 중요한 연구 주제에 해당한다. 

 

EC번호 예측으로 효소의 기능 조사

효소의 기능을 나타내기 위한 방법 중 하나인 EC 번호(Enzyme Commission Number)는 효소가 매개하는 특정 생화학 반응의 종류를 4자리 숫자로 나타내는, 일종의 생화학 암호에 해당한다. 순수 생명과학 분야는 물론, 병리학과 바이오화학 산업에서도 이미 EC 번호가 널리 활용하고 있기에, 효소의 EC 번호를 예측하는 방법은 산업적으로 매우 중요한 의미가 있다. 이러한 맥락에서 EC 번호를 예측할 수 있는 컴퓨터 방법론이 지금껏 여러 차례 개발되었으나, 예측 속도, 정확성, 가용범위, 필요 디스크 용량 등 여러 면에서 더욱 최적화될 여지가 있었다.

 

합성곱 신경망으로 단백질 서열 분석

연구팀은 실험적으로 검증된 효소들의 단백질 서열** 데이터에 딥러닝 기술을 적용해 EC 번호를 빠르고 정확하게 예측할 수 있는 프로그램인 DeepEC를 개발했다. DeepEC는 EC 번호를 예측하기 위해 3개의 CNN (Convolutional Neural Network, 합성곱 신경망)을 적용했다. 합성곱 신경망은 딥러닝의 한 종류로서 이미지 인식에 주로 사용되며, 단백질 서열같이 문맥을 따져야 하는 정보에도 적합한 기술로 알려져 있다. 개발된 DeepEC 프로그램에 입력값으로 단백질 서열을 입력하면 첫 번째 합성곱 신경망은 해당 단백질이 효소인지 여부를 판별하며, 두 번째와 세 번째 합성곱 신경망은 각각 3개와 4개의 EC 번호를 결괏값으로 반환한다. 이들 3개의 CNN이 모두 일관성 있는 결과를 도출한 경우에만, DeepEC는 최종적으로 해당 단백질 서열에 대한 EC 번호를 출력값으로 알려주게 된다. 만일 DeepEC의 합성곱 신경망이 성공적으로 EC 번호를 예측하지 못하면, 서열정렬(Sequence Alignment)을 통해 EC 번호를 예측하게 된다. 이번 연구를 통해 완성된 DeepEC는 이전에 발표된 EC 번호 예측 프로그램들보다 성능과 속도, 용량 면에서 훨씬 월등하다는 것이 검증되었다. 

DeepEC 알고리즘과 기존 예측 알고리즘 비교
(a)DeepEC 알고리즘의 순서도. (b)DeepEC 알고리즘을 비롯한 여러 알고리즘이 입력한 단백질 서열을 분석하는데 걸린 시간. (ⓒ김현욱 교수 제공)

 

살아있는 대장균에서 DeepEC 검증

연구팀은 나아가 생물학적으로 가장 많이 연구된 박테리아 중 하나인 대장균(Escherichia coli)에 대해 프로그램을 적용했다. 대장균의 효소 중 명확하지 않은 효소의 EC 번호를 DeepEC를 통해 새로이 예측했으며, 효소활성 검증실험을 통해 DeepEC의 성능을 검증했다.

이번 연구는 폭넓은 응용 가능성에도 불구하고, 성능이 충분하지 않았던 기존 EC 번호 예측 기술을 개선했다는 점에서 의의가 크다. 김 교수는 DeepEC가 “다양한 생명공학 분야에 폭넓게 이용될 수 있는 강력한 도구”라 밝히며, “대사공학 및 암 연구 등 다양한 바이오산업과 의학적 문제를 풀기 위해 DeepEC를 다른 프로그램에 접목시키는 것이 매우 중요하다”고 전했다.
 

활성화에너지*
화학반응이 진행되기 위해 필요한 추가 에너지.

단백질 서열**
단백질을 이루는 아미노산의 서열. 단백질은 20가지의 아미노산 분자가 결합한 중합체로, 이때 아미노산 분자의 종류와 결합하는 순서는 DNA에 의해 특정된다.
 

저작권자 © 카이스트신문 무단전재 및 재배포 금지