Showing posts with label Bio. Show all posts
Showing posts with label Bio. Show all posts
Wednesday, December 5, 2012
Tuesday, November 13, 2012
Phred/phrap/consed
source: http://haeyoungsblog.blogspot.jp/2008/01/phredphrapconsed.html
미생물 유전체 해독에서 아직까지 가장 널리 쓰이고 있는 소프트웨어 패키지가 바로 phred/phrap/consed이다. Phred는 basecaller, phrap은 fragment assembler, 그리고 consed는 contig viewer & editor이다. 내가 이 프로그램을 처음 접한 것은 2000년도 였던 것으로 기억한다. 당시 (주)제노텍에 근무하고 있었으므로 University of Washington에 $10,000의 라이센스 비용을 지불하고 사용권을 얻었다. Phred는 99년도 판과 2000년도 판이 있었고, phrap은 내가 알기로는 2000년대 들어서 한번도 개정된 바가 없었다. Consed는 내가 처음 쓰기 시작한 것이 12.0이었는데, 2007년 16.0에 이르기까지 꾸준히 개선되고 있다. 지금은 비영리 연구기관에 있다 보니 라이센스 비용이 들지 않는다는 것이 좋기는 하다.
가장 방대하고 익히기 어려운 것은 이중에서 consed가 아닐까 한다. 단순 텍스트로만 빽빽하게 되어있는 매뉴얼을 프린트 해 놓으면 그 분량만 해도 상당하다! 내 생각으로는 버젼 13.0번 쯤에서 assembly view 기능이 추가된 것이 가장 큰 진보가 아닐까 한다. 이제는 454 pyrosequencing의 결과도 완벽하지는 않지만 다룰 수 있게 되었다.
엄밀히 말하자면 나는 bioinformatics 또는 computational biology를 제대로 전공한 사람은 아니다. 따라서 서열 단편 합체의 이론 자체에 대해서 완벽한 수학적 이해를 하고 있지는 않다는 뜻이다. 그러나 본격적인 대용량 시퀀싱의 시대를 연 주역인 ABI 3700 DNA analyzer의 작동으로부터 서열 합체, 피니싱 그리고 genome annotation에 이르기까지의 전 과정을 직접 경험해 보았기에 누구보다도 할 말은 많다 :) 특히 이론가들이 간과하기 쉬운 작업 현장의 문제 - 예를 들자면 read name을 왜 바꾸어야 하는가의 문제 - 에 대해서는 비교적 소상하게 알고 있는 편이다.
Phred와 phrap은 이미 이론적으로 완성된 경지에 이른 프로그램이니 더 이상 업데이트가 되지 않는 것이 이상하지는 않다. 하지만 Consed는 그렇게 오랜 시간 동안을 David Gordon 한 사람에 의해서 계속 개선되어 오고 있다는 것이 놀랍기만 하다. Phil Green lab의 홈페이지에 가면 유난히 깡마른 체구의 David Gordon이 보인다. 미국 대학교의 교수 연구실 체제가 어떻게 돌아가는지는 잘 모르겠지만, 우리나라 같으면 교수와 사무원 빼고는 모두가 '들렀다가 나가는' 사람인 현실을 감안한다면 꾸준히 한 자리에 머무르면서 자기가 개발한 소프트웨어를 계속 책임질 수 있다는 것이 참으로 대단하게 느껴진다.
콘'세'드인가, 콘'시'드인가? 이에 대한 궁금증 때문에 David에게 직접 메일을 보낸 적이 있었다. 아마도 콘세드로 읽어달라는 답장을 받았던 것 같다. Phred는 Phil Green's read editor, Phrap은 Phil Green's assemly program, consed는 contig sequence editor 정도의 의미일 것이다 (앞의 두개는 확실한 것으로 기억한다).
가장 방대하고 익히기 어려운 것은 이중에서 consed가 아닐까 한다. 단순 텍스트로만 빽빽하게 되어있는 매뉴얼을 프린트 해 놓으면 그 분량만 해도 상당하다! 내 생각으로는 버젼 13.0번 쯤에서 assembly view 기능이 추가된 것이 가장 큰 진보가 아닐까 한다. 이제는 454 pyrosequencing의 결과도 완벽하지는 않지만 다룰 수 있게 되었다.
엄밀히 말하자면 나는 bioinformatics 또는 computational biology를 제대로 전공한 사람은 아니다. 따라서 서열 단편 합체의 이론 자체에 대해서 완벽한 수학적 이해를 하고 있지는 않다는 뜻이다. 그러나 본격적인 대용량 시퀀싱의 시대를 연 주역인 ABI 3700 DNA analyzer의 작동으로부터 서열 합체, 피니싱 그리고 genome annotation에 이르기까지의 전 과정을 직접 경험해 보았기에 누구보다도 할 말은 많다 :) 특히 이론가들이 간과하기 쉬운 작업 현장의 문제 - 예를 들자면 read name을 왜 바꾸어야 하는가의 문제 - 에 대해서는 비교적 소상하게 알고 있는 편이다.
Phred와 phrap은 이미 이론적으로 완성된 경지에 이른 프로그램이니 더 이상 업데이트가 되지 않는 것이 이상하지는 않다. 하지만 Consed는 그렇게 오랜 시간 동안을 David Gordon 한 사람에 의해서 계속 개선되어 오고 있다는 것이 놀랍기만 하다. Phil Green lab의 홈페이지에 가면 유난히 깡마른 체구의 David Gordon이 보인다. 미국 대학교의 교수 연구실 체제가 어떻게 돌아가는지는 잘 모르겠지만, 우리나라 같으면 교수와 사무원 빼고는 모두가 '들렀다가 나가는' 사람인 현실을 감안한다면 꾸준히 한 자리에 머무르면서 자기가 개발한 소프트웨어를 계속 책임질 수 있다는 것이 참으로 대단하게 느껴진다.
콘'세'드인가, 콘'시'드인가? 이에 대한 궁금증 때문에 David에게 직접 메일을 보낸 적이 있었다. 아마도 콘세드로 읽어달라는 답장을 받았던 것 같다. Phred는 Phil Green's read editor, Phrap은 Phil Green's assemly program, consed는 contig sequence editor 정도의 의미일 것이다 (앞의 두개는 확실한 것으로 기억한다).
작성자: 정해영 (Haeyoung JEONG) 시간: 오전 6:56
차세대염기서열분석기술(NGS) 비교와 생물정보학에서의 도전
source: http://www.insilicogen.com/blog/12
차세대 염기서열 분석기기 비교
차세대 염기서열 분석법(NGS; Next Genertation Sequencing)은 분석속도와 비용에 있어 생명과학 분야에 혁신을 가져올 것으로 예상된다. 아래 표는 현재까지 출시된 NGS 기술을 간략하게 비교해 보았다. Roche사의 454 기술은 새로운 종의 유전체 분석에 더 적합하고, Illumina나 ABI사의 기술은 알려진 유전체에서 variation을 연구하는데 더 적합할 것으로 생각된다.
기술
|
Roche 454 GS FLX
|
Illumina Genome Analyzer
|
ABI SOLiD Platform
|
응용분야
|
새로운 유전체 분석, resequencing, 발현체분석, 유전자조절연구, epigentic changes, 메타지놈 및 미생물다양성 연구, paleogenomics analysis
|
Resequencing, 발현체 분석, 유전자 조절 연구, ChIP, 작은 유전체에 대한 새로운 시퀀싱(paired-end 방법), epigenetic changes
|
Targeted resequencing, 유전자 발현, microRNA 발굴, ChIP, 전체 유전체 재분석(resequencing)
|
가시화
|
Light from chemical reaction
|
형광 표지에 의한 색상
|
4가지 형광 표지
|
Read length (한번에 읽을 수 있는 bp)
|
200 ~ 300
|
25 ~ 40
|
35
|
1회 분석시 생성 서열
|
80 million 이상
|
1 billion 이상
|
3 billion 이상
|
1회 분석 시간 (Run time)
|
7.5 hr
|
3 days, 6 days (paired-end 분석의 경우)
|
fragment lib: 4 days
Mate pairs lib. : 8 days |
샘플 수
|
1회 분석시 2, 4, 13 샘플처리 가능
|
8 샘플
|
1 ~ 16 샘플
|
Single-read 정확도
|
99.5%
|
99.9%
|
97%
|
오류의 종류
|
Homopolymer errors, phase errors, chimaeras, duplicated fragments
|
리드 말단에서 정확도가 떨어지는 경향이 있음
|
Mis-incorporated bases
|
Multiplexing
|
최대 16 samples/plate, bar-coding tag 개발중
|
8 samples/slid, bar-coding tag 개발중
|
4 samples/slide, bar-coding tag 개발중
|
Paried-end reads
|
가능; 리드 사이즈 250 bp, 인서트 크기는 가변
|
가능; 리드 사이즈 25bp, 인서트 사이즈 250bp, 500bp contiguous fragments, 1~15kb pairs library pairsings
|
가능; 리드 사이즈 25bp, 인서트 사이즈 3kb~8kb
|
생물정보학에서의 도전
생물정보학적인 입장에서 NGS는 과거의 이슈를 새롭게 부각켰다. 한동안 생물정보 분야에서 정보 처리 속도와 염기서열 데이터 통합은 이미 해결된 문제처럼 보였으나, NGS가 등장하면서 새로운 도전에 직면한다. 즉, NGS 기기를 1회 작동시키면 8천만에서 30억 bp의 염기서열이 쏟아지는데, 이를 한 주에 1~2회만 운용해도 그 자료랑은 엄청난 분량이된다. 이러한 상황에서 대규모의 서버를 구성해서 처리하는 것은 당연한 접근법이지만, 국내 실정에서 이를 위해 필요한 인력과 고정 비용을 생각하면 결코 만만치 않은 것이다.
대표적인 어셈블리 소프트웨어인 phred/phrap/consed도 NGS 데이터를 다룰 수 있도록 개정되 고 있다고 한다. 워싱턴 대학에서 제공되고 있는 phred/phrap은 2000년 이후로 알고리즘 측면에서는 이렇다할 업데이트가 없는 실정이지만, consed는 꾸준한 업데이트로 기능이 향상되고 있다. 하지만 consed를 사용해본 독자라면 윈도와 다른 그래픽 유저 인터페이스에 조금 실망하고 그 메뉴얼의 방대함에 질려본 적이 있을 것이다.
최근 서버가 아닌 노트북이나 데스크탑에서 NGS 데이터를 믿을 수 없느 속도로 처리할 수 있는 소프트웨어가 소개되었다. 덴마크의 CLC Bio(http://www.clcbio.com)사에서 제공하는 CLC Genomics Workbench라 는 제품으로대형 서버에서 병렬처리형 phred/pharp에서 수 일이 걸리던 어셈블리를 몇 가지 제약은 있지만, 단 수 시간만에 처리한다. 비교 성능이 믿기 어려울 만큼 빨라 과연 지금 소개해야 할지 의문이 들 정도이다. 포화상태인 것 처럼 보이던 어셈블리 분야에서 혁명을 이끌어 냈다는 생각이 든다. 현재 덴마크 NGS 연구 그룹에서 소프트웨어 플랫폼으로 활용되고 있다고 한다(기사읽기).
또한 FGENESH FGENESH+라는 유전자 예측 소프트웨어로 유명한 Softberry Inc에서도 NGS를OligoZip를 출시하였다. 미생물 유전체 분석을 실제로 수행한 결과는 기존의 어셈블리 프로그램보다 우수한 clustering 결과를 얻었다고 한다1. Solexa sequencing을 통해서 얻어진 작은 서열들을 모아서 reference가 없는 새로운 genomic 서열 구성하거나, 동일종 또는 비슷한 종의 서열을 참고로 genomic 서열 구성할 수 있다. 그리고, 주어진 유전자에 대하여 돌연변이 검출이나 SNP discovery에도 효과적이라고 한다.
인간유전체 발표후에 기대에 비해서 체감할 수 있는 변화가 미비했었지만, NGS의 출현으로 생물정보학의 역할에 대해서 환기되는 새로운 전기가 될 것으로 기대하며 NGS와 관련 프로그램에 대해서 간략히 살펴보았다.
- 1 Bioinofrmatics, 2007, 23(4):500-501
Tuesday, November 6, 2012
Lab Data & images in Life sciences
•Lab Data
–Clinical chemistry(임상화학(臨床化學)
–Hematology(혈액학)
–Urinalysis(소변 검사)
–Hormone levels
–Immunology(면역학)
–Virology(바이러스학)
–Bacteriology(세균학)
–Toxicology(독성학)
•Images
–X-ray
–Bone Scan
–MRI/MRA
–SPECT scan
–CAT sc
–PET scan
질병을 유발하는 DNA 손상 검출법 개발
source: http://www.leehyobio.com/kr/science/Bionews_view.asp?bIdx=220&pageno=5
| ||||||||||||||||||||||||||
시퀀싱 - DNA 유전정보 읽기란
source:http://iiai.blog.me/149451681
[출처] http://iiai.blog.me/149451681
이 블로그에서 소개한 전공 관련 글에서는
시퀀싱 (sequencing),
특히 NGS (Next Generation
Sequencer, 차세대
시퀀서) 내용이 많았다. 그러다가 잘못해서(?) 사실은 지금 NGS 관련 일을 하게 되었다. 사실 스스로는 깨닫지 못하고 있었는데, 전에 세미나 발표를 듣고 어떤 비전공자 분이 우리가 도대체
어느 나라 말을 하는 건지 알 수가 없었다고 해서 놀랐던 적이 있다. 생각해 보니까 말이 한국말이지 대부분의 용어는 영어
그대로이고 비전공자에 대한 장벽이 너무 높다는 사실을 새삼 깨달았었다. 아직 스스로는 이러한 정리를 제대로 할 실력이 아니라는
것은 알지만 그래도 조금씩 아는 만큼 정리해 보는 것도 좋겠다는 생각이 들어서 몇 가지 기본 용어 설명을 시도해 본다.
= 시퀀싱 (sequencing)
=
생물의 유전정보는 DNA 서열로 구성되어 있는데 A, T, G, C라는 네 종류의 염기가 한 줄로 늘어서 있기 때문에
서열(sequence)이라는 표현을 쓴다. (참고로 일본어에서는 ‘배열’이라고 함) 인간의 유전정보는 30억 염기서열이며, 그 말은 예를 들어 ATTGCGAGGTCA… 라는 식으로 네 종류의 알파벳이 30억 개 늘어선 것이 인간의 유전정보 전체라는
뜻이다. 물론 실제로는 30억 개가 하나로 늘어선 게 아니라, 염색체로 나누어져 있고 아버지, 어머니에게서 물려받아 두 배씩 가지고
있다. 왓슨과 크릭이 DNA 이중나선 구조를 밝혀내어 1962년 노벨상을 받은 것을 계기로 생명체를 겉모습과 세포
수준에서 보다가 더 나아가 유전정보 분자 수준까지 연구할 수 있게 된 셈이다. 따라서 각 생명체의 유전정보인 DNA 서열을 쭉 읽어서 밝혀내는 것이 그 생명체의 설계도를
읽는다는 의미를 가지게 되었고 이렇게 DNA 서열의 알파벳 순서(시퀀스, sequence)를 읽는 것을 시퀀싱(sequencing)이라고 부른다.
= Whole
(Full) Genome Sequencing =
말 그대로 genome 전체를 읽는 시퀀싱. 인간의 경우라면 30억 염기, 즉 30억 개의 4종류 알파벳을 읽는 게 된다. Genome은 국어사전에서는 독일어 유래인 ‘게놈’으로 표기되지만[1] 영어 발음에 가까운 ‘지넘’이라는 표기와, ‘유전체’라는 한자어도 함께 사용되고는 있다. 유전체라는 한자어는 일본어에는 없는
표현. 20세기 말에 시작되어 2003년에 완료된 생물학사상 최대규모의
프로젝트였던 human genome
project가 바로
최초의 whole genome
sequencing을 한
것인데, 약 10년 동안 30억 달러 정도가 투입되었다. 2012년 현재는 $1,000 에 가능한 장비(Ion Proton)가 발표되었고 시간은 하루 이내로 단축되었다[2]. 몇 년 사이에 시간은 3650분의 일, 비용은 30만 분의 일로 줄었다는 터무니없는 발전이 이루어진
셈이다.
= Targeted
Sequencing =
게놈 전체를 읽는 게 아니라 관심이 있는 부분을 정해서 그
부분만 읽음으로써 시간과 비용을 줄일 수도 있다. 예를 들어 어떤 질병에 관련이 있다고 알려진
수십, 또는 수백 개의 유전자를 정하고 그 유전자만 골라서 시퀀싱
한다면 시퀀싱에 드는 시간과 비용을 줄이는 것은 물론 그 이후의 분석도 간편해진다. 전체 게놈 중에서 어떤 질병에 관련이 있다고 알려진 부분을
미리 어떻게 알아낼 수 있느냐는 점이다. 그러기 위해서는 많은 환자와 정상인에 대한 전체 게놈
시퀀싱이 미리 충분히 이루어져 과학자들이 새로운 사실을 밝혀내야 한다.
= Exome Sequencing
=
전체 게놈에는 2만여 개의 유전자가 있는데 그 유전자의
엑손(exon)
부분만 다 모아서 시퀀싱 하는
방법이다. 게놈이 설계도의 역할을 해서 최종적으로 만들어지는 것은
단백질이다. 단백질이라는 것은 사실은 20종류의 아미노산이 서열을 이룬 것이고, 이것은 게놈의 4종류의 DNA로 만들어진 서열로부터 온 셈이다. 그런데 이렇게 아미노산으로 연결되는 DNA 서열은 게놈 전체에서 아주 일부만이며 게놈의 1%에
해당되는 그 아주 일부인 엑손 전체 세트를 exome이라고 한다. 따라서 이 exome만 시퀀싱 하더라도 일단 나중에 만들어질 단백질 아미노산
서열에 어떤 차이가 생길지는 알 수 있게 되는 셈이다[3].
= 시퀀서
(sequencer) =
DNA 염기서열을 눈으로 읽을 수는 없기 때문에 기계장치의 힘을
빌리는데 이렇게 DNA
샘플에서 서열을 읽어내어 사람이
읽을 수 있는,
또는 컴퓨터 전용 프로그램이 분석할
수 있는 알파벳 서열로 출력해주는 장비를 시퀀서라고 한다. 수십 년 동안 생거 시퀀싱이란 방법을 사용하는 시퀀서들이
활약했었는데(캐필러리 시퀀서), 최근 몇 년 전부터 생거 시퀀싱이 아닌 새로운 방법을
사용하는 시퀀서들이 등장해서 함께 활약하기 시작했다. 이렇게 새로 등장한 시퀀서들은 차세대
시퀀서(NGS; Next
Generation Sequencer)라고 구분한다. 경우에 따라서 제2세대 시퀀서라고도 하는데 그 이유는 또 다른 방식의
시퀀서, 즉 제3세대, 제4세대 시퀀서라고 할 수 있는 것들 이 논의되거나 등장하고
있기 때문이다[4, 5].
= 차세대 시퀀서
(NGS) =
기존 생거 시퀀싱 방식에 비해서 가장 큰 특징은 한번
장치를 돌려서 나오는 데이터 양이 어마어마하게 커졌고, 또한 돌리는데 드는 비용이 또한 어마어마하게 줄었다는
것이다. 예를 들면, 기존 시퀀서로 10년 동안 30억 달러가 들던 인간 게놈 시퀀싱이
하루에 1,000
달러 정도에 가능하게 되려고 하고
있다. 이건 사실은 아는 사람들만 아는, 어느 과학기술 분야에서도 좀처럼 없는 어마어마한
변화이다.
2012년
현재 NGS의 단점은 아직 기존의 생거 시퀀싱 기법의 시퀀서에 비해서
정확성이 떨어지는 점이다.
따라서 NGS에서는 한 번에 읽어내는 양이 많다는 장점을 이용해서
같은 DNA 서열을 증폭시켜서 반복해서 읽은 것들을 한꺼번에 풀어놓고
서로 겹쳐 읽음으로써 약간 틀리는 부분들을 서로 보완해서 정확도를 높여준다. 전문용어로는 커버리지(coverage)를 높여준다는 표현을 쓰며 30X, 2000X 라는 것은 DNA 서열의 어떤 부분을 30배 또는 2000배 겹쳐서 반복해 읽었다는 뜻이다. 아무튼 이러한 단점이 있기 때문에
대부분은
NGS로 시퀀싱을
하고, 뭔가 새로운 것을 알게 되었다면 그 일부 부분에 대해서만
정확성이 높은 기존의 시퀀서로 다시 꼼꼼히 읽어서 확인하는 방법을 잘 사용한다. 차세대 시퀀서의 주요 업체는 로슈, 일루미나, 라이프 테크놀로지스 등이며, 최근에는 시퀀서 메커니즘의 차이에 따라
차세대(제2세대)만이 아니라 제3세대, 제4세대로 분류될 수도 있는 시퀀서들이 시장에 나오기
시작했다.
[2] Machine to read
individual’s DNA for $1,000 (Financial Times)
[3] NGS를 사용한 엑솜 연구의
한계
[4] DNA 산업 동향과 ion torrent PGM
이야기
[5] 제3세대 시퀀서
PacBio
Monday, November 5, 2012
i2b2 informatics for integrating Biology & the bedside
source : https://www.i2b2.org/software/index.html
![]() |
|||||||||||||||||||
| |||||||||||||||||||
Subscribe to:
Comments (Atom)




View By:
Go to Download