나의 인생 이야기: 시퀀싱 - DNA 유전정보 읽기란

source:http://iiai.blog.me/149451681

이 블로그에서 소개한 전공 관련 글에서는 시퀀싱 (sequencing), 특히 NGS (Next Generation Sequencer, 차세대 시퀀서) 내용이 많았다. 그러다가 잘못해서(?) 사실은 지금 NGS 관련 일을 하게 되었다. 사실 스스로는 깨닫지 못하고 있었는데, 전에 세미나 발표를 듣고 어떤 비전공자 분이 우리가 도대체 어느 나라 말을 하는 건지 알 수가 없었다고 해서 놀랐던 적이 있다. 생각해 보니까 말이 한국말이지 대부분의 용어는 영어 그대로이고 비전공자에 대한 장벽이 너무 높다는 사실을 새삼 깨달았었다. 아직 스스로는 이러한 정리를 제대로 할 실력이 아니라는 것은 알지만 그래도 조금씩 아는 만큼 정리해 보는 것도 좋겠다는 생각이 들어서 몇 가지 기본 용어 설명을 시도해 본다.

= 시퀀싱 (sequencing) =

생물의 유전정보는 DNA 서열로 구성되어 있는데 A, T, G, C라는 네 종류의 염기가 한 줄로 늘어서 있기 때문에 서열(sequence)이라는 표현을 쓴다. (참고로 일본어에서는 ‘배열’이라고 함) 인간의 유전정보는 30억 염기서열이며, 그 말은 예를 들어 ATTGCGAGGTCA… 라는 식으로 네 종류의 알파벳이 30억 개 늘어선 것이 인간의 유전정보 전체라는 뜻이다. 물론 실제로는 30억 개가 하나로 늘어선 게 아니라, 염색체로 나누어져 있고 아버지, 어머니에게서 물려받아 두 배씩 가지고 있다. 왓슨과 크릭이 DNA 이중나선 구조를 밝혀내어 1962년 노벨상을 받은 것을 계기로 생명체를 겉모습과 세포 수준에서 보다가 더 나아가 유전정보 분자 수준까지 연구할 수 있게 된 셈이다. 따라서 각 생명체의 유전정보인 DNA 서열을 쭉 읽어서 밝혀내는 것이 그 생명체의 설계도를 읽는다는 의미를 가지게 되었고 이렇게 DNA 서열의 알파벳 순서(시퀀스, sequence)를 읽는 것을 시퀀싱(sequencing)이라고 부른다.

= Whole (Full) Genome Sequencing =

말 그대로 genome 전체를 읽는 시퀀싱. 인간의 경우라면 30억 염기, 즉 30억 개의 4종류 알파벳을 읽는 게 된다. Genome은 국어사전에서는 독일어 유래인 ‘게놈’으로 표기되지만[1] 영어 발음에 가까운 ‘지넘’이라는 표기와, ‘유전체’라는 한자어도 함께 사용되고는 있다. 유전체라는 한자어는 일본어에는 없는 표현. 20세기 말에 시작되어 2003년에 완료된 생물학사상 최대규모의 프로젝트였던 human genome project가 바로 최초의 whole genome sequencing을 한 것인데, 약 10년 동안 30억 달러 정도가 투입되었다. 2012년 현재는 $1,000 에 가능한 장비(Ion Proton)가 발표되었고 시간은 하루 이내로 단축되었다[2]. 몇 년 사이에 시간은 3650분의 일, 비용은 30만 분의 일로 줄었다는 터무니없는 발전이 이루어진 셈이다.

= Targeted Sequencing =

게놈 전체를 읽는 게 아니라 관심이 있는 부분을 정해서 그 부분만 읽음으로써 시간과 비용을 줄일 수도 있다. 예를 들어 어떤 질병에 관련이 있다고 알려진 수십, 또는 수백 개의 유전자를 정하고 그 유전자만 골라서 시퀀싱 한다면 시퀀싱에 드는 시간과 비용을 줄이는 것은 물론 그 이후의 분석도 간편해진다. 전체 게놈 중에서 어떤 질병에 관련이 있다고 알려진 부분을 미리 어떻게 알아낼 수 있느냐는 점이다. 그러기 위해서는 많은 환자와 정상인에 대한 전체 게놈 시퀀싱이 미리 충분히 이루어져 과학자들이 새로운 사실을 밝혀내야 한다.

= Exome Sequencing =

전체 게놈에는 2만여 개의 유전자가 있는데 그 유전자의 엑손(exon) 부분만 다 모아서 시퀀싱 하는 방법이다. 게놈이 설계도의 역할을 해서 최종적으로 만들어지는 것은 단백질이다. 단백질이라는 것은 사실은 20종류의 아미노산이 서열을 이룬 것이고, 이것은 게놈의 4종류의 DNA로 만들어진 서열로부터 온 셈이다. 그런데 이렇게 아미노산으로 연결되는 DNA 서열은 게놈 전체에서 아주 일부만이며 게놈의 1%에 해당되는 그 아주 일부인 엑손 전체 세트를 exome이라고 한다. 따라서 이 exome만 시퀀싱 하더라도 일단 나중에 만들어질 단백질 아미노산 서열에 어떤 차이가 생길지는 알 수 있게 되는 셈이다[3].

= 시퀀서 (sequencer) =

DNA 염기서열을 눈으로 읽을 수는 없기 때문에 기계장치의 힘을 빌리는데 이렇게 DNA 샘플에서 서열을 읽어내어 사람이 읽을 수 있는, 또는 컴퓨터 전용 프로그램이 분석할 수 있는 알파벳 서열로 출력해주는 장비를 시퀀서라고 한다. 수십 년 동안 생거 시퀀싱이란 방법을 사용하는 시퀀서들이 활약했었는데(캐필러리 시퀀서), 최근 몇 년 전부터 생거 시퀀싱이 아닌 새로운 방법을 사용하는 시퀀서들이 등장해서 함께 활약하기 시작했다. 이렇게 새로 등장한 시퀀서들은 차세대 시퀀서(NGS; Next Generation Sequencer)라고 구분한다. 경우에 따라서 제2세대 시퀀서라고도 하는데 그 이유는 또 다른 방식의 시퀀서, 즉 제3세대, 제4세대 시퀀서라고 할 수 있는 것들 이 논의되거나 등장하고 있기 때문이다[4, 5].

= 차세대 시퀀서 (NGS) =

기존 생거 시퀀싱 방식에 비해서 가장 큰 특징은 한번 장치를 돌려서 나오는 데이터 양이 어마어마하게 커졌고, 또한 돌리는데 드는 비용이 또한 어마어마하게 줄었다는 것이다. 예를 들면, 기존 시퀀서로 10년 동안 30억 달러가 들던 인간 게놈 시퀀싱이 하루에 1,000 달러 정도에 가능하게 되려고 하고 있다. 이건 사실은 아는 사람들만 아는, 어느 과학기술 분야에서도 좀처럼 없는 어마어마한 변화이다. 2012년 현재 NGS의 단점은 아직 기존의 생거 시퀀싱 기법의 시퀀서에 비해서 정확성이 떨어지는 점이다. 따라서 NGS에서는 한 번에 읽어내는 양이 많다는 장점을 이용해서 같은 DNA 서열을 증폭시켜서 반복해서 읽은 것들을 한꺼번에 풀어놓고 서로 겹쳐 읽음으로써 약간 틀리는 부분들을 서로 보완해서 정확도를 높여준다. 전문용어로는 커버리지(coverage)를 높여준다는 표현을 쓰며 30X, 2000X 라는 것은 DNA 서열의 어떤 부분을 30배 또는 2000배 겹쳐서 반복해 읽었다는 뜻이다. 아무튼 이러한 단점이 있기 때문에 대부분은 NGS로 시퀀싱을 하고, 뭔가 새로운 것을 알게 되었다면 그 일부 부분에 대해서만 정확성이 높은 기존의 시퀀서로 다시 꼼꼼히 읽어서 확인하는 방법을 잘 사용한다. 차세대 시퀀서의 주요 업체는 로슈, 일루미나, 라이프 테크놀로지스 등이며, 최근에는 시퀀서 메커니즘의 차이에 따라 차세대(제2세대)만이 아니라 제3세대, 제4세대로 분류될 수도 있는 시퀀서들이 시장에 나오기 시작했다.

[1] http://krdic.naver.com/search.nhn?kind=all&scBtn=true&query=%EA%B2%8C%EB%86%88

[2] Machine to read individual’s DNA for $1,000 (Financial Times)

(http://www.ft.com/cms/s/2/e3c6b7bc-3ac3-11e1-a756-00144feabdc0.html#axzz1kuq3Fcrf)

[3] NGS를 사용한 엑솜 연구의 한계

(http://iiai.blog.me/117362100)

[4] DNA 산업 동향과 ion torrent PGM 이야기

(http://iiai.blog.me/144747536)

[5] 제3세대 시퀀서 PacBio

(http://iiai.blog.me/141672427)