생명은 복잡하다. 수많은 분자가 활발하게 상호작용하며 생명 현상이라는 거시적인 결과를 만든다. 최근 생명 분석 기술이 발달하면서 생명과 관련된 정보가 급격하게 늘어나고 있다. 이 중에는 사람이 직접 다루기에는 지나치게 복잡한 경우가 많지만, 복잡한 생명 현상을 이해하기 위해서는 생명에 관련된 지식 모두를 함께 연결해 분석해야만 한다. 다행스럽게도, 생명 기술이 발전하는 동안 정보 기술 역시 눈부신 발전을 이뤘다. 컴퓨터 등을 이용한 정보 처리 기술로 방대한 생명 정보를 분석해 생명에 대한 인류의 지식의 폭을 넓히는 생정보학에 대해 알아보자. 
 

생명 정보가 담긴 분자 DNA

어제의 나와 오늘의 나는 다른 원자들로 이루어진다. 음식을 먹거나 호흡, 배설 등의 과정을 통해 생명체는 주변 환경과 끊임없이 물질을 교환한다. 그런데도 생명체가 생명으로서, 종으로서, 그리고 개체로서 특이성을 잃지 않는 것은 생명체가 자신에 관한 정보를 저장한다는 의미다. 이 사실은 생식 과정에서 더욱 도드라지게 나타나는데, 생식의 결과로 새로 탄생한 생명체는 그를 탄생시킨 생명체를 닮는다는 점에서 생명체가 자신의 정보를 저장할 수 있을 뿐만 아니라 저장된 정보를 다른 개체로 전달할 수도 있다는 점을 알 수 있다. 사람들은 이 현상을 유전이라 부르며 농업과 축산업 등에 널리 활용해 왔지만, 이 현상이 어떻게 일어나는지에 대해선 크게 관심을 두지 않았다. 그러나 19세기 말, 유물론을 기저에 두는 과학적 사고방식이 생명 현상에도 적용되면서 과학자들은 유전 현상을 일으키는 물질이 있다는 것을 확신하고, 그 물질이 바로 생명체의 본질이 되는 정보를 담고 있으리라 생각하게 되었다. DNA는 1869년 스위스의 프리드리히 미셔에 의해 처음 발견되었다. 그리고 마침내 1944년, 캐나다의 오즈월드 에이버리가 이를 실험으로 확인하며 생명체의 정보가 DNA라는 특정한 분자 내에 담겨 있다는 것이 확인되었다.

생명 현상이 복잡한 만큼 유전 물질에 담겨야 할 생명의 정보는 방대하다. 에이버리의 발견으로 생명 정보가 DNA라는 분자 구조 속에 담겨있다는 것은 확인되었으나, 그 정보가 어떻게 분자 안에 저장되고 생명 현상을 일으키는지는 알려지지 않았다. 생명 정보가 생명 현상으로 발현되는 메커니즘은 1953년 프란시스 크릭과 제임스 왓슨이 DNA의 분자 구조를 보고하며 밝혀지기 시작한다. DNA는 A(Adenine,  아데닌), T(Thymine, 티민), C(Cytosine, 사이토신), G(Guanine, 구아닌)의 네 가지 단위체가 반복되며 긴 이중 나선 구조의 중합체를 이루는데, 바로 이 단위체의 서열이 생명 현상을 규율하는 정보가 된다. 각 단위체가 염기성을 띠기에 이 서열은 염기서열이라 불리며, 1957년 크릭은 DNA 염기서열이 생명 현상으로 발현하는 과정인 센트럴 도그마를 제시한다. 센트럴 도그마에 따르면 DNA의 염기서열은 RNA의 염기서열로 전사되고, RNA 염기서열은 다시 단백질의 아미노산 서열로 번역되어 생명 현상을 이룬다. DNA, RNA, 단백질의 서열과 후술할 각 서열 위에 존재하는 변형은 이후 더 자세히 연구되었고, 생정보학은 바로 이 생명 정보를 정보 처리 기술로 분석해 의미 있는 지식을 얻는다.

 

DNA 염기서열 분석하는 생어 방법

크릭이 제시한 센트럴 도그마는 DNA 염기서열로부터 모든 생명 현상이 비롯된다고 설명한다. 따라서 DNA 염기서열을 파악하는 것은 생명 현상을 온전히 파악하는 첫 번째 단계로 여겨졌다. 왓슨과 크릭은 X-선 회절을 이용해 DNA가 이중 나선 구조를 이룬다는 것을 밝혔지만, DNA의 염기서열을 분석하는 방법은 제시하지 못했다. DNA의 염기 서열이 분석되기 시작한 것은 이로부터 약 20년 뒤인 1977년이다. 영국의 생화학자 프레더릭 생어는 DNA 중합 효소와 전기영동을 이용해 짧은 DNA의 염기서열을 분석하는 방법을 제시했고, 이 업적을 인정받아 3년 뒤 노벨상을 받는다. 생어의 방법에선 우선 염기서열을 알고자 하는 DNA의 한쪽 끝에 결합하는 짧은 DNA 조각인 프라이머를 붙인 뒤, 프라이머에서 시작해 DNA에 상보적인 서열을 합성한다. 이때, DNA의 단위체인 dNTP와 유사한 구조를 가지는 ddNTP를 함께 재료로써 넣어준다. 실험에 사용되는 ddNTP에는 종류별로 각자 다른 형광물질을 붙여 두었다. 합성 과정에서 DNA 중합 효소가 dNTP를 사용하면 DNA 서열이 정상적으로 자라나지만, ddNTP를 사용한다면 그 위치에서 합성은 종결되며 이는 dNTP와 ddNTP의 농도비율에 따라 확률적으로 결정된다. 이렇게 합성된 다양한 길이의 상보서열은 전기영동을 통해 길이에 따라 분리할 수 있고, 분리된 상보서열의 형광을 분석하면 합성이 종결된 곳에 어떤 ddNTP가 결합했는지 확인할 수 있다. 이렇게 ddNTP의 서열이 확인되면 그의 상보적인 서열을 구해 기판 DNA의 염기서열을 알 수 있다.

 

인간 게놈 처음으로 분석한 생정보학

생어의 방법은 지금까지도 짧은 DNA의 염기서열을 확인하는 데 널리 쓰이는 신뢰성 높은 방법이지만, 한 생명체의 DNA를 모두 분석하기에는 너무 느리고, 큰 비용이 들었다. 하지만 생어의 방법을 토대로 염색체 워킹(Chromosome Walking), 염색체 점핑(Chromosome Jumping) 등 수많은 DNA 염기서열 분석 방법이 개발되었고, 분석할 수 있는 DNA의 길이가 점차 길어지며 바이러스와 같이 단순한 유사 생명체의 DNA는 통째로 분석할 수 있게 되었다. 한 생명체, 혹은 바이러스의 전체 DNA의 염기서열은 모든 유전자를 담고 있다는 의미에서 게놈(Genome)이라 불린다. 

바이러스 게놈 분석에 이어, 인간의 전체 DNA 염기서열 분석을 목표로 하는 인간 게놈 프로젝트가 1990년에 시작됐다. 그러나 인간의 DNA는 바이러스와는 달리 한 번의 실험으로 분석하기에는 너무 길어서 여러 부분으로 나누어 분석해야 했다. 각각 분석한 DNA 조각의 염기서열은 서로 일치하는 부분을 겹치도록 배열해 합칠 수 있으며, 충분히 많은 조각에 대해 이를 반복하면 전체 DNA 염기서열을 얻을 수 있다. 연구자들은 이 문제를 효율적으로 해결하기 위한 알고리즘을 고안했고, 컴퓨터를 이용해 이를 계산함으로써 그 결실을 얻을 수 있었다.

전체 서열에 대한 정보가 없는 경우는 계산하기 까다롭다. 부분 DNA 염기서열을 조합하는 문제의 해법 중 하나인 OLC(Overlap-Layout-Consensus, 겹침-나열-일치) 알고리즘은 이 문제를 해밀턴 경로(Hamiltonian Path)로 환원해 해결한다. 해밀턴 경로는 주어진 그래프에서 모든 꼭짓점을 정확히 한 번 방문하도록 두 꼭짓점을 잇는 경로를 말한다. OLC 알고리즘을 적용하기 위해서 우선 겹치는 부분이 있는 DNA 조각끼리 선으로 이어 그래프를 그린다. 한 조각이 다른 조각에 포함되는 경우에는 포함하는 조각만 남긴다. 만약 이 그래프의 모든 조각이 하나의 DNA로부터 비롯됐고, 전체 DNA 중 임의의 부분을 포함하는 조각이 하나 이상 있다면 해밀턴 경로가 존재한다. 이 해밀턴 경로를 따라 조각을 조합하면 전체 DNA 염기서열을 얻을 수 있다. 

 

게놈의 의미 밝히는 게놈 주석

전체 DNA 염기서열은 그 자체로는 어떤 의미도 갖지 않는 4가지 단위체의 무작위한 반복서열이다. 13년에 걸쳐 얻은 인간의 게놈을 의미 있게 사용하기 위해선 게놈 중 어떤 부분이 유전자로 발현되고, 또 그렇지 않은 부분은 어떤 역할을 가지는지 알아야 한다. 이렇게 게놈에서 각 부분의 역할을 밝히는 것을 게놈 주석(Genome Annotation)이라 부른다.

게놈 주석 연구가 이뤄지기 전에는 게놈 전체가 유전자여서 모두 센트럴 도그마에 따라 단백질로 발현된다는 오해가 있었다. 그러나 이후 밝혀진 바에 따르면 인간 게놈 중에 약 2% 만이 유전자이며, 나머지는 단백질로 발현되지 않는다. 따라서 새로운 게놈을 분석하기 위해선 가장 먼저 유전자의 위치를 찾아야 한다.

게놈에서 유전자를 찾는 방법 중 가장 널리 이용되는 것이 BLAST이다. BLAST는 DNA 염기서열인 게놈을 비롯해 RNA의 염기서열, 단백질의 아미노산 서열 등을 비교하는 알고리즘으로, 이 경우에는 여러 종의 게놈을 비교하는 데 이용된다. 앞서 이야기한 것처럼 유전자는 생명 현상을 직접 일으키는 단백질을 암호화하는 부분이다. 진화적으로 가까운 종일수록 유사한 단백질을 가져 유사한 생명 현상이 나타나기 때문에, 유전자는 유전자가 아닌 부분에 비해 그 서열이 잘 보존되어 있다. 그리고 유전자의 DNA 염기서열과 단백질의 아미노산 서열은 서로 대응되므로, BLAST를 통해 찾은 후보 염기서열을 단백질의 아미노산 서열과 대조해 해당 서열이 정말 유전자인지 확인할 수 있다. 전체 서열을 대상으로 이런 확인 과정을 진행할 수도 있지만, BLAST(Basic Local Alignment Search Tool)를 통해 진화적으로 가까운 종의 게놈을 비교해 유사도가 높은 서열을 중심으로 유전자를 찾으면 시간과 노력을 크게 줄일 수 있다.

게놈에서 유전자가 아닌 DNA는 한때 어떤 기능도 하지 않는 ‘쓰레기’로 여겨졌지만, 이 중 일부를 삭제하면 암이 생기거나 발달 과정에 문제가 생기는 등, 필수적인 역할을 가지는 것이 점점 밝혀지고 있다. 이미 밝혀진 역할만 수십 가지가 있지만, 넓게 보면 모두 ‘유전자의 발현량 조절’이라는 목적을 가진다. 인간 게놈 프로젝트는 이만여 개의 유전자를 찾아냈지만, 모든 유전자가 같은 정도로 발현되지 않는다. 단백질을 생성하는 정보를 담고 있는 RNA를 mRNA라 부르는데, 각 유전자로부터 생성되는 mRNA의 양이 다르기 때문에 최종적으로 생성되는 단백질의 양에 차이가 있는 것이다. 물론 mRNA의 양 외에도 단백질량에 영향을 미치는 요인은 많지만, mRNA는 센트럴 도그마에서 DNA와 가장 가깝게 위치한다는 점에서 보통 발현량 변화 연구의 시작점이 된다. 

 

mRNA 종합 분석하는 DNA 칩

DNA 칩(DNA Chip)는 세포 내에 존재하는 mRNA의 양을 유전자별로 확인하는 방법이다. DNA 칩의 각 칸에는 하나의 유전자에 상보적인 DNA 분자가 용기 바닥에 고정되어 있다. DNA 칩을 사용하기 위해선 먼저 세포로부터 mRNA를 추출한 뒤, mRNA를 기판으로 cDNA(Complementary DNA, 상보적인 DNA)를 합성해야 한다. 이때 기판이 되는 mRNA가 많을수록 cDNA는 많이 합성된다. 다음으로, cDNA에 형광물질을 접합하고 준비한 DNA 칩 위에 뿌린다. DNA 칩에 고정된 DNA는 그에 상보적인 cDNA에만 결합하므로, 이후 미세격자를 가볍게 씻어내면 각 칸에는 해당 칸의 유전자에 해당하는 cDNA만 남게 된다. cDNA에는 형광물질이 결합해 있으므로 형광의 세기와 cDNA의 양은 비례하고, cDNA의 양과 mRNA의 양 역시 비례하기 때문에 각 칸의 형광을 통해 각 유전자의 mRNA 전사량을 비교할 수 있다.

 

트랜스크립톰, 모든 RNA의 집합

DNA의 전체 집합인 게놈이 등장하며, 이에 대응해 RNA의 전체 집합인 트랜스크립톰(Transcriptome)의 개념이 생겨났다. DNA 미세격자를 통한 mRNA 분석이 바로 트랜스크립톰을 연구하는 대표적인 방법이다. 유전자 하나에 대한 mRNA의 절대적인 전사량을 측정하는 것은 어떤 의미도 갖지 못한다. 여러 유전자에 대한 mRNA의 상대적 전사량을 함께 측정하고, 조건의 변화에 따라 그 비율이 어떻게 변화하는지 살필 때야 비로소 유전자의 역할과 자극에 대한 생명체의 반응 메커니즘 등 유의미한 사실을 탐구할 수 있다. 

센트럴 도그마에서는 RNA로 전사된 정보는 다시 단백질의 아미노산 서열로 번역되고, 단백질이 생명 현상의 주체가 된다. 하지만 생명 정보를 저장하기만 하는 DNA와 달리, RNA는 직접 생화학 반응에 관여하기도 한다. 효소로 작용하는 RNA인 리보자임(Ribozyme)이 대표적이다. 인간 게놈에서 단백질로 번역되지 않는 98%의 염기서열 중 대부분은 바로 이렇게 직접 생화학 반응에 관여하는 RNA로 전사되며, 트랜스크립톰은 이들 RNA의 상호작용을 종합적으로 연구한다.

RNA의 상호작용 중 특별히 중요한 것으로 RNA 간섭(RNA Interference)이 있다. 어떤 RNA는 전사 후 작은 RNA 조각인 siRNA(Small Interfering RNA, 작은 간섭 RNA)로 가공되는데, siRNA는 상보적인 mRNA와 결합해 mRNA의 분해를 촉진한다. 게놈에서 유전자가 아닌 부분 중 일부는 이렇게 siRNA를 생성해 특정 유전자의 발현을 조절한다. RNA 간섭처럼 게놈에서의 상호작용이 트랜스크립톰에서의 상호작용과 밀접한 연관이 있는 경우가 많은데, 생명 현상을 완전히 이해하기 위해선 게놈과 트랜스크립톰을 또 하나의 전체 집합으로써 이해해야 한다. 

 

생명 현상 중심에 서있는 단백질

센트럴 도그마에서, DNA는 생명 정보가 저장되는 곳이고, RNA는 DNA와 단백질의 매개체이며, 단백질은 DNA의 정보를 받아 생화학 반응에 직접 관여하는, 생명 현상 그 자체였다. RNA의 다양한 역할이 밝혀진 지금, 센트럴 도그마는 완벽한 모델이 아니다. 그런데도 단백질은 여전히 생명 반응의 주체로 여겨지는데, 이는 4가지의 단위체를 가지는 DNA, RNA와는 달리, 단백질은 인간의 경우 20가지의 단위체를 가져 훨씬 다양한 구조를 만들 수 있기 때문이다. DNA에서 RNA를 전사하는 RNA 중합 효소와 DNA를 복제하는 DNA 중합 효소 모두 단백질이며, RNA에서 단백질을 생성하는 리보솜은 단백질과 RNA의 복합체이다. 게놈, 트랜스크립톰에 상응하는 개념으로 프로테옴(Proteome)이 있으며, 프로테옴 역시 복잡하게 아름다울 것은 자명하다. 단백질은 다른 단백질에 의해 삼차원 구조를 완성하고, 또 다른 단백질에 의해 분해되며, 여러 단백질이 모여 하나의 효소를 이루기도 하고, 거대한 세포의 골격을 만들기도 하기 때문이다.

보통 단백질이 유전자의 최종 산물이므로, 단백질의 발현량을 직접 측정하는 것은 유전자의 발현 정도를 직접 측정한다는 큰 의미가 있다. 모든 실험은 대조군이 없으면 의미가 없기에, 단백질의 발현량 측정에서도 대조군은 필요하다. 단, 여러 번의 거듭된 실험을 통한 대조는 번거로울 뿐만 아니라 오차를 증폭시킬 염려가 있기에 수많은 종류의 단백질을 한꺼번에 측정하는 방법인 ELISA(Enzyme-linked Immunosorbent Assay, 효소결합면역흡착검사)가 개발되었다. mRNA를 측량했던 DNA 미세격자에서 상보적인 DNA 서열 사이의 수소결합을 이용했다면, ELISA는 목표 물질에 특이적으로 결합하는 항체를 이용한다. 그리고 DNA 미세격자와는 반대로 ELISA는 분석 대상을 고체 표면 위에 고정한 뒤, 항체가 포함된 용액을 도포하고 일정 시간 후 헹궈낸다. 이때 사용하는 항체에 형광 신호를 만들 수 있는 효소인 HRP(Horseradish Peroxidase, 양 고추냉이 과산화효소)를 결합해 형광 신호의 세기로 성공적으로 결합한 항체의 양을 알 수 있다. 만약 신호가 너무 약하다면, 첫 번째 적용하는 항체에 특이적으로 결합하는 항체에 형광 신호를 내는 물질을 부착한 뒤 ELISA 샘플에 추가 적용해 신호를 증폭할 수 있다. 항체가 많이 결합할수록 목표 물질이 많이 있는 것이므로, 형광 신호의 세기는 결과적으로 단백질의 양에 비례하게 나타난다. ELISA에 사용되는 항체는 생명체가 면역 반응을 보이는 모든 물질에 대해 적용할 수 있기 때문에 비단 프로테옴 연구뿐만 아니라 생화학 전반에서 널리 사용된다.

 

단백질의 후번역수정과 후성유전학

단백질은 약 20가지의 아미노산 단위체로 이뤄지기에 DNA와 RNA보다 다양한 구조를 이룰 수 있고, 다양한 화학 반응을 매개할 수 있다. 하지만 단백질을 이루는 아미노산은 실제로는 20가지보다 훨씬 많은 상태를 가진다. 바로 작은 화학 물질이나 작용기가 아미노산에 부착되어 단백질의 성질을 바꾸는 후번역수정(Post-Translational Modification) 때문이다. 세린 혹은 트레오닌에 인산기가 붙어 주로 단백질을 활성화하는 인산화와 시스틴이 다른 시스틴과 황-황 공유결합을 이루는 시스틴 이황 다리(Cysteine Disulphide Bridge)가 대표적이다. 이 밖에도 수산기, 아세틸기, 메틸기와 같이 작은 작용기가 결합할 수 있고, 수모화(Sumoylation)와 같이 작은 단백질이 결합할 수도 있다. 

단백질의 후번역수정은 주로 다른 단백질에 의해 이뤄지며, 그 단백질 역시 유전자가 암호화하므로 결국 후번역수정 역시 모두 DNA 염기서열의 결과처럼 보일 수 있다. 그러나 DNA 염기서열에 표현되지 않는 변형이 단백질에 존재할 수 있고, DNA, RNA, 단백질의 서열이 직접적으로 대응되지 않는다는 사실은 DNA 염기서열이 생명 정보의 전부가 아님을 시사한다. 단백질과 유사하게 RNA 역시 후전사수정(Post-Transcriptional Modification)을 거치며, DNA도 메틸화, 아세틸화 등의 화학적 변형 과정을 거친다. 특히 DNA와 DNA를 뭉치도록 돕는 단백질인 히스톤의 변형 중에는 다음 세대로 유전되는 것으로 알려진 변형이 크다. 이처럼 DNA 염기서열의 변화가 없어도 유전이 가능한 유전자 기능의 변화에 대한 학문으로 후성유전학이 최근 많은 관심을 받고 있으며, 후성유전학적 변화의 전체집합인 에피제놈(Epigenome)의 중요성 역시 주목받고 있다. 

 

1차원 서열부터 3차원 구조까지

후성유전학은 좁게는 유전될 수 있는 DNA, RNA, 단백질의 서열 위에서의 화학적인 변화를 다루지만, 넓게는 이런 변화로 말미암는 3차원 구조의 변화 역시 포함한다. 생명 정보의 서열은 1차원 서열로 가장 간단히 표현될 수 있지만, 모든 생체 분자는 3차원으로 존재한다. 특히 인간의 DNA는 2미터 정도의 전체 길이를 갖지만, 실제론 지름이 6마이크로미터에 불과한 핵 속에 조밀한 3차원 구조로 존재한다. 생명 현상은 3차원에서 일어나고, 하나의 1차원 서열이 만들어낼 수 있는 3차원 구조는 무궁무진하기 때문에, 결국 1차원 서열은 그 자체만으로 생명 현상을 설명하지 못한다. 이와 같은 사실에 기반해 생명 정보에 대한 탐구를 1차원 서열에서 멈추지 않고, 생체 분자가 어떻게 구조를 이루는지 탐구하는 분야를 구조생물학(Structural Biology)이라 한다. 구조생물학은 앞서 다룬 게놈, 트랜스크립톰, 프로테옴, 에피제놈을 집대성해 실제로 생체 분자가 갖는 구조를 탐구하는 가장 복잡한 생정보학으로 발전하고 있다.
같은 개체의 세포라면 모두 같은 게놈을 가진다. 하지만 후성유전학적 변화에 따라 게놈에서 활성화되는 부분이 달라지면서 서로 다른 유전자 발현 양상을 가지게 된다. DNA는 세포의 종류와 외부 자극에 따라 응집되는 정도가 달라지는데, 더 조밀하게 응집할수록 RNA 중합효소가 결합하기 어려워 유전자의 발현 정도가 낮아진다. 유전자 발현 정도를 조절하는 후성유전학적 변화로 DNA 메틸화가 있는데, DNA의 시토신 단위체에 결합한 메틸기를 여러 조절 효소가 인식해 DNA의 응집 정도를 바꾼다. DNA 분자가 서로 뭉치도록 돕는 단백질인 히스톤 역시 후성유전학적으로 아세틸화되어 그 활성이 감소할 수 있다. 따라서 히스톤 아세틸화는 인접한 유전자의 발현을 촉진하는 결과를 가져온다. DNA 메틸화와 히스톤 아세틸화는 다음 세대로 유전되기는 생명 정보이다. 이처럼 게놈 연구에 기반한 에피제놈 연구는, 게놈의 기능을 더 자세히 알 수 있다는 점에서, 생명 현상을 이해하는 데 필수적인 분야이다.

생정보학의 탐구 대상은 생물학적 실험 결과에 국한되지 않는다. 3차원으로 꼬여 있는 서열을 분석하기 위해 매듭 이론을 사용하기도 하고, 소규모 분자의 상호작용을 시뮬레이션하기 위해 양자역학을 사용하기도 한다. 생정보학은 생명에 대한 인류의 지식을 넓히기 위해 인류의 모든 지식을 모으고 있다. 생명 현상에 대한 호기심을 갖고 있다면, 생정보학이 가져올 발견을 기대해보자.
 

저작권자 © 카이스트신문 무단전재 및 재배포 금지