Tuesday, November 13, 2012

차세대염기서열분석기술(NGS) 비교와 생물정보학에서의 도전


source: http://www.insilicogen.com/blog/12


차세대 염기서열 분석기기 비교

차세대 염기서열 분석법(NGS; Next Genertation Sequencing)은 분석속도와 비용에 있어 생명과학 분야에 혁신을 가져올 것으로 예상된다. 아래 표는 현재까지 출시된 NGS 기술을 간략하게 비교해 보았다. Roche사의 454 기술은 새로운 종의 유전체 분석에 더 적합하고, Illumina나 ABI사의 기술은 알려진 유전체에서 variation을 연구하는데 더 적합할 것으로 생각된다.
기술
Roche 454 GS FLX
Illumina Genome Analyzer
ABI SOLiD Platform
응용분야
새로운 유전체 분석, resequencing, 발현체분석, 유전자조절연구, epigentic changes, 메타지놈 및 미생물다양성 연구, paleogenomics analysis
Resequencing, 발현체 분석, 유전자 조절 연구, ChIP, 작은 유전체에 대한 새로운 시퀀싱(paired-end 방법), epigenetic changes
Targeted resequencing, 유전자 발현, microRNA 발굴, ChIP, 전체 유전체 재분석(resequencing)
가시화
Light from chemical reaction
형광 표지에 의한 색상
4가지 형광 표지
Read length (한번에 읽을 수 있는 bp)
200 ~ 300
25 ~ 40
35
1회 분석시 생성 서열
80 million 이상
1 billion 이상
3 billion 이상
1회 분석 시간 (Run time)
7.5 hr
3 days, 6 days (paired-end 분석의 경우)
fragment lib: 4 days
Mate pairs lib. : 8 days
샘플 수
1회 분석시 2, 4, 13 샘플처리 가능
8 샘플
1 ~ 16 샘플
Single-read 정확도
99.5%
99.9%
97%
오류의 종류
Homopolymer errors, phase errors, chimaeras, duplicated fragments
리드 말단에서 정확도가 떨어지는 경향이 있음
Mis-incorporated bases
Multiplexing
최대 16 samples/plate, bar-coding tag 개발중
8 samples/slid, bar-coding tag 개발중
4 samples/slide, bar-coding tag 개발중
Paried-end reads
가능; 리드 사이즈 250 bp, 인서트 크기는 가변
가능; 리드 사이즈 25bp, 인서트 사이즈 250bp, 500bp contiguous fragments, 1~15kb pairs library pairsings
가능; 리드 사이즈 25bp, 인서트 사이즈 3kb~8kb

생물정보학에서의 도전

생물정보학적인 입장에서 NGS는 과거의 이슈를 새롭게 부각켰다. 한동안 생물정보 분야에서 정보 처리 속도 염기서열 데이터 통합은 이미 해결된 문제처럼 보였으나, NGS가 등장하면서 새로운 도전에 직면한다. 즉, NGS 기기를 1회 작동시키면 8천만에서 30억 bp의 염기서열이 쏟아지는데, 이를 한 주에 1~2회만 운용해도 그 자료랑은 엄청난 분량이된다. 이러한 상황에서 대규모의 서버를 구성해서 처리하는 것은 당연한 접근법이지만, 국내 실정에서 이를 위해 필요한 인력과 고정 비용을 생각하면 결코 만만치 않은 것이다.
대표적인 어셈블리 소프트웨어인 phred/phrap/consed도 NGS 데이터를 다룰 수 있도록 개정되 고 있다고 한다. 워싱턴 대학에서 제공되고 있는 phred/phrap은 2000년 이후로 알고리즘 측면에서는 이렇다할 업데이트가 없는 실정이지만, consed는 꾸준한 업데이트로 기능이 향상되고 있다. 하지만 consed를 사용해본 독자라면 윈도와 다른 그래픽 유저 인터페이스에 조금 실망하고 그 메뉴얼의 방대함에 질려본 적이 있을 것이다.
최근 서버가 아닌 노트북이나 데스크탑에서 NGS 데이터를 믿을 수 없느 속도로 처리할 수 있는 소프트웨어가 소개되었다. 덴마크의 CLC Bio(http://www.clcbio.com)사에서 제공하는 CLC Genomics Workbench라 는 제품으로대형 서버에서 병렬처리형 phred/pharp에서 수 일이 걸리던 어셈블리를 몇 가지 제약은 있지만, 단 수 시간만에 처리한다. 비교 성능이 믿기 어려울 만큼 빨라 과연 지금 소개해야 할지 의문이 들 정도이다. 포화상태인 것 처럼 보이던 어셈블리 분야에서 혁명을 이끌어 냈다는 생각이 든다. 현재 덴마크 NGS 연구 그룹에서 소프트웨어 플랫폼으로 활용되고 있다고 한다(기사읽기).
또한 FGENESH FGENESH+라는 유전자 예측 소프트웨어로 유명한 Softberry Inc에서도 NGS를OligoZip를 출시하였다. 미생물 유전체 분석을 실제로 수행한 결과는 기존의 어셈블리 프로그램보다 우수한 clustering 결과를 얻었다고 한다1. Solexa sequencing을 통해서 얻어진 작은 서열들을 모아서 reference가 없는 새로운 genomic 서열 구성하거나, 동일종 또는 비슷한 종의 서열을 참고로 genomic 서열 구성할 수 있다. 그리고, 주어진 유전자에 대하여 돌연변이 검출이나 SNP discovery에도 효과적이라고 한다.
인간유전체 발표후에 기대에 비해서 체감할 수 있는 변화가 미비했었지만, NGS의 출현으로 생물정보학의 역할에 대해서 환기되는 새로운 전기가 될 것으로 기대하며 NGS와 관련 프로그램에 대해서 간략히 살펴보았다.
  • 1 Bioinofrmatics, 2007, 23(4):500-501

No comments:

Post a Comment