나의 인생 이야기: Bio

Showing posts with label Bio. Show all posts

Wednesday, December 5, 2012

Bio Portal-NCI Thesaurus

http://bioportal.bioontology.org/ontologies/47638/?p=terms&conceptid=Terminology_Concept_Unique_Identifier

Tuesday, November 13, 2012

Phred/phrap/consed

source: http://haeyoungsblog.blogspot.jp/2008/01/phredphrapconsed.html

미생물 유전체 해독에서 아직까지 가장 널리 쓰이고 있는 소프트웨어 패키지가 바로 phred/phrap/consed이다. Phred는 basecaller, phrap은 fragment assembler, 그리고 consed는 contig viewer & editor이다. 내가 이 프로그램을 처음 접한 것은 2000년도 였던 것으로 기억한다. 당시 (주)제노텍에 근무하고 있었으므로 University of Washington에 $10,000의 라이센스 비용을 지불하고 사용권을 얻었다. Phred는 99년도 판과 2000년도 판이 있었고, phrap은 내가 알기로는 2000년대 들어서 한번도 개정된 바가 없었다. Consed는 내가 처음 쓰기 시작한 것이 12.0이었는데, 2007년 16.0에 이르기까지 꾸준히 개선되고 있다. 지금은 비영리 연구기관에 있다 보니 라이센스 비용이 들지 않는다는 것이 좋기는 하다.

가장 방대하고 익히기 어려운 것은 이중에서 consed가 아닐까 한다. 단순 텍스트로만 빽빽하게 되어있는 매뉴얼을 프린트 해 놓으면 그 분량만 해도 상당하다! 내 생각으로는 버젼 13.0번 쯤에서 assembly view 기능이 추가된 것이 가장 큰 진보가 아닐까 한다. 이제는 454 pyrosequencing의 결과도 완벽하지는 않지만 다룰 수 있게 되었다.

엄밀히 말하자면 나는 bioinformatics 또는 computational biology를 제대로 전공한 사람은 아니다. 따라서 서열 단편 합체의 이론 자체에 대해서 완벽한 수학적 이해를 하고 있지는 않다는 뜻이다. 그러나 본격적인 대용량 시퀀싱의 시대를 연 주역인 ABI 3700 DNA analyzer의 작동으로부터 서열 합체, 피니싱 그리고 genome annotation에 이르기까지의 전 과정을 직접 경험해 보았기에 누구보다도 할 말은 많다 :) 특히 이론가들이 간과하기 쉬운 작업 현장의 문제 - 예를 들자면 read name을 왜 바꾸어야 하는가의 문제 - 에 대해서는 비교적 소상하게 알고 있는 편이다.

Phred와 phrap은 이미 이론적으로 완성된 경지에 이른 프로그램이니 더 이상 업데이트가 되지 않는 것이 이상하지는 않다. 하지만 Consed는 그렇게 오랜 시간 동안을 David Gordon 한 사람에 의해서 계속 개선되어 오고 있다는 것이 놀랍기만 하다. Phil Green lab의 홈페이지에 가면 유난히 깡마른 체구의 David Gordon이 보인다. 미국 대학교의 교수 연구실 체제가 어떻게 돌아가는지는 잘 모르겠지만, 우리나라 같으면 교수와 사무원 빼고는 모두가 '들렀다가 나가는' 사람인 현실을 감안한다면 꾸준히 한 자리에 머무르면서 자기가 개발한 소프트웨어를 계속 책임질 수 있다는 것이 참으로 대단하게 느껴진다.

콘'세'드인가, 콘'시'드인가? 이에 대한 궁금증 때문에 David에게 직접 메일을 보낸 적이 있었다. 아마도 콘세드로 읽어달라는 답장을 받았던 것 같다. Phred는 Phil Green's read editor, Phrap은 Phil Green's assemly program, consed는 contig sequence editor 정도의 의미일 것이다 (앞의 두개는 확실한 것으로 기억한다).

차세대염기서열분석기술(NGS) 비교와 생물정보학에서의 도전

source: http://www.insilicogen.com/blog/12

차세대 염기서열 분석기기 비교

차세대 염기서열 분석법(NGS; Next Genertation Sequencing)은 분석속도와 비용에 있어 생명과학 분야에 혁신을 가져올 것으로 예상된다. 아래 표는 현재까지 출시된 NGS 기술을 간략하게 비교해 보았다. Roche사의 454 기술은 새로운 종의 유전체 분석에 더 적합하고, Illumina나 ABI사의 기술은 알려진 유전체에서 variation을 연구하는데 더 적합할 것으로 생각된다.

기술	Roche 454 GS FLX	Illumina Genome Analyzer	ABI SOLiD Platform
응용분야	새로운 유전체 분석, resequencing, 발현체분석, 유전자조절연구, epigentic changes, 메타지놈 및 미생물다양성 연구, paleogenomics analysis	Resequencing, 발현체 분석, 유전자 조절 연구, ChIP, 작은 유전체에 대한 새로운 시퀀싱(paired-end 방법), epigenetic changes	Targeted resequencing, 유전자 발현, microRNA 발굴, ChIP, 전체 유전체 재분석(resequencing)
가시화	Light from chemical reaction	형광 표지에 의한 색상	4가지 형광 표지
Read length (한번에 읽을 수 있는 bp)	200 ~ 300	25 ~ 40	35
1회 분석시 생성 서열	80 million 이상	1 billion 이상	3 billion 이상
1회 분석 시간 (Run time)	7.5 hr	3 days, 6 days (paired-end 분석의 경우)	fragment lib: 4 days Mate pairs lib. : 8 days
샘플 수	1회 분석시 2, 4, 13 샘플처리 가능	8 샘플	1 ~ 16 샘플
Single-read 정확도	99.5%	99.9%	97%
오류의 종류	Homopolymer errors, phase errors, chimaeras, duplicated fragments	리드 말단에서 정확도가 떨어지는 경향이 있음	Mis-incorporated bases
Multiplexing	최대 16 samples/plate, bar-coding tag 개발중	8 samples/slid, bar-coding tag 개발중	4 samples/slide, bar-coding tag 개발중
Paried-end reads	가능; 리드 사이즈 250 bp, 인서트 크기는 가변	가능; 리드 사이즈 25bp, 인서트 사이즈 250bp, 500bp contiguous fragments, 1~15kb pairs library pairsings	가능; 리드 사이즈 25bp, 인서트 사이즈 3kb~8kb

생물정보학에서의 도전

생물정보학적인 입장에서 NGS는 과거의 이슈를 새롭게 부각켰다. 한동안 생물정보 분야에서 정보 처리 속도와 염기서열 데이터 통합은 이미 해결된 문제처럼 보였으나, NGS가 등장하면서 새로운 도전에 직면한다. 즉, NGS 기기를 1회 작동시키면 8천만에서 30억 bp의 염기서열이 쏟아지는데, 이를 한 주에 1~2회만 운용해도 그 자료랑은 엄청난 분량이된다. 이러한 상황에서 대규모의 서버를 구성해서 처리하는 것은 당연한 접근법이지만, 국내 실정에서 이를 위해 필요한 인력과 고정 비용을 생각하면 결코 만만치 않은 것이다.

대표적인 어셈블리 소프트웨어인 phred/phrap/consed도 NGS 데이터를 다룰 수 있도록 개정되 고 있다고 한다. 워싱턴 대학에서 제공되고 있는 phred/phrap은 2000년 이후로 알고리즘 측면에서는 이렇다할 업데이트가 없는 실정이지만, consed는 꾸준한 업데이트로 기능이 향상되고 있다. 하지만 consed를 사용해본 독자라면 윈도와 다른 그래픽 유저 인터페이스에 조금 실망하고 그 메뉴얼의 방대함에 질려본 적이 있을 것이다.

최근 서버가 아닌 노트북이나 데스크탑에서 NGS 데이터를 믿을 수 없느 속도로 처리할 수 있는 소프트웨어가 소개되었다. 덴마크의 CLC Bio(http://www.clcbio.com)사에서 제공하는 CLC Genomics Workbench라 는 제품으로대형 서버에서 병렬처리형 phred/pharp에서 수 일이 걸리던 어셈블리를 몇 가지 제약은 있지만, 단 수 시간만에 처리한다. 비교 성능이 믿기 어려울 만큼 빨라 과연 지금 소개해야 할지 의문이 들 정도이다. 포화상태인 것 처럼 보이던 어셈블리 분야에서 혁명을 이끌어 냈다는 생각이 든다. 현재 덴마크 NGS 연구 그룹에서 소프트웨어 플랫폼으로 활용되고 있다고 한다(기사읽기).

또한 FGENESH FGENESH+라는 유전자 예측 소프트웨어로 유명한 Softberry Inc에서도 NGS를OligoZip를 출시하였다. 미생물 유전체 분석을 실제로 수행한 결과는 기존의 어셈블리 프로그램보다 우수한 clustering 결과를 얻었다고 한다¹. Solexa sequencing을 통해서 얻어진 작은 서열들을 모아서 reference가 없는 새로운 genomic 서열 구성하거나, 동일종 또는 비슷한 종의 서열을 참고로 genomic 서열 구성할 수 있다. 그리고, 주어진 유전자에 대하여 돌연변이 검출이나 SNP discovery에도 효과적이라고 한다.

인간유전체 발표후에 기대에 비해서 체감할 수 있는 변화가 미비했었지만, NGS의 출현으로 생물정보학의 역할에 대해서 환기되는 새로운 전기가 될 것으로 기대하며 NGS와 관련 프로그램에 대해서 간략히 살펴보았다.

1 Bioinofrmatics, 2007, 23(4):500-501

Tuesday, November 6, 2012

Lab Data & images in Life sciences

•Lab Data

–Clinical chemistry(임상화학(臨床化學)

–Hematology(혈액학)

–Urinalysis(소변 검사)

–Hormone levels

–Immunology(면역학)

–Virology(바이러스학)

–Bacteriology(세균학)

–Toxicology(독성학)

•Images

–X-ray

–Bone Scan

–MRI/MRA

–SPECT scan

–CAT sc

–PET scan

아시아인 유전체 특이적 유전자 복제 수 변이 (copy number variation)

Gene Expression

source : http://blog.daum.net/_blog/BlogTypeView.do?blogid=0RKLC&articleno=20&categoryId=10&regdt=20091213044837#ajax_history_home

질병을 유발하는 DNA 손상 검출법 개발

source: http://www.leehyobio.com/kr/science/Bionews_view.asp?bIdx=220&pageno=5

	질병을 유발하는 DNA 손상 검출법 개발
	관리자	2012-06-22	88

세계의 과학자들은 분자 크기의 구멍을 통해 유전자 물질을 통과시킴으로써 더 빠르고 저렴한 비용으로 DNA 염기서열을 분석하고자 노력을 기울이고 있다. University of Utah 소속 연구진은 나노구멍을 이용해 돌연변이 및 질병을 유발할 수 있는 DNA의 손상 검출법을 개발했다. 연구 결과는 2012년 6월 18일자 Proceedings of the National Academy of Sciences (PNAS)지에 “Crown ether?electrolyte interactions permit nanopore detection of individual DNA abasic sites in single molecules”란 제목으로 게재됐다. Henry S. White 교수는 유기 화학 및 나노구멍을 통해 DNA 손상을 확인할 수 있다고 밝혔다. DNA 가닥은 A, T, G, 그리고 C로 알려진 뉴클레오티드(nucleotide)로 구성된다. 일부의 DNA 가닥이 유전자에 해당한다. 새롭게 개발된 방법을 통해 인간의 30억개의 유전자 속에서 가장 흔히 나타나는 형태인 염기가 없는 위치를 확인할 수 있다. 이러한 DNA 손상은 통상적인 세포 속에서 하루에 18,000 여회 발생하고, 대부분 복구되지만 일부는 유전자 돌연변이 및 궁극적으로 질병 발생으로 이어질 수 있다. 저렴하고 빠른 DNA Sequencing Sequencing이란 뉴클레오티드(nucleotide) 염기 A, C, G, 그리고 T의 순서를 결정하는 과정이다. 질병을 유발하는 유전자 돌연변이를 확인하기 위해 살아있는 생물의 유전자 및 게놈 지도를 결정할 필요가 있는데, 가장 필수적인 과정이라 할 수 있다. 20 년 전, 인간의 유전자를 최초로 분석하는데 10억 달러가 소모됐다. 하지만 지금은 5000~20,000 달러면 충분하다. 미국국립보건원(National Institutes of Health)은 1000 달러 또는 그 이하의 비용으로 유전자 분석을 진행할 수 있는 프로젝트를 진행하고 있다. DNA sequencing은 다양한 분야에서 활용이 가능하다. 범죄 수사 및 용의자 추적이 가능하고 또한 생물학자로 하여금 살아 있는 생물에 대한 이해의 폭을 넓힐 수 있을 것이다. 농업 분야에서는 농작물의 생산성, 품질들의 향상을 가져올 수 있다. 또한 빠르고 저렴한 개인 유전자 분석은 일명 “맞춤 의학(personalized medicine)” 시대를 열 수 있을 것으로 기대된다. 손상을 확인하기 위한 나노구멍 지금까지 나노구멍을 이용해 100개의 염기 중에서 1~2개의 DNA 손상 위치를 발견하는데 성공했다. DNA sequencing을 위해 사용한 400 nm 직경의 나노구멍은 alpha-hemolysin로 명명했고, 박테리아에서 얻을 수 있는 단백질이라고 설명했다. Henry S. White 교수는 DNA 가닥을 구멍내로 이동시킴으로써 DNA Sequencing을 읽어들이는 것이 아니라 단지 단일 염기의 손상만을 검출한다고 밝혔다. 어떻게 DNA 손상이 돌연변이로 이어지는지 이해하는 것은 매우 중요하다. 이는 질병의 시발점이라 할 수 있기 때문이다. 현재로써는 DNA 손상을 감지하고, 대략적으로 어느 위치에서 (5~10개의 염기 범위 중에서) 손상이 나타나는지 확인할 수 있는 수준이다. 연구진은 손상 위치를 정확하기 집어내고, 어떻게 이러한 손상을 질병으로 이어질 수 있는지 이해하고자 계속적인 노력을 진행하고 있다. 그림) 뉴클레오티드(nucleotide)로 구성된 DNA 가닥에 대한 모식도 출 처 : http://www.nanowerk.com/news/newsid=25638.php http://www.nanowerk.com/news/newsid=25638.php

시퀀싱 - DNA 유전정보 읽기란

source:http://iiai.blog.me/149451681

[출처] http://iiai.blog.me/149451681

이 블로그에서 소개한 전공 관련 글에서는 시퀀싱 (sequencing), 특히 NGS (Next Generation Sequencer, 차세대 시퀀서) 내용이 많았다. 그러다가 잘못해서(?) 사실은 지금 NGS 관련 일을 하게 되었다. 사실 스스로는 깨닫지 못하고 있었는데, 전에 세미나 발표를 듣고 어떤 비전공자 분이 우리가 도대체 어느 나라 말을 하는 건지 알 수가 없었다고 해서 놀랐던 적이 있다. 생각해 보니까 말이 한국말이지 대부분의 용어는 영어 그대로이고 비전공자에 대한 장벽이 너무 높다는 사실을 새삼 깨달았었다. 아직 스스로는 이러한 정리를 제대로 할 실력이 아니라는 것은 알지만 그래도 조금씩 아는 만큼 정리해 보는 것도 좋겠다는 생각이 들어서 몇 가지 기본 용어 설명을 시도해 본다.

= 시퀀싱 (sequencing) =

생물의 유전정보는 DNA 서열로 구성되어 있는데 A, T, G, C라는 네 종류의 염기가 한 줄로 늘어서 있기 때문에 서열(sequence)이라는 표현을 쓴다. (참고로 일본어에서는 ‘배열’이라고 함) 인간의 유전정보는 30억 염기서열이며, 그 말은 예를 들어 ATTGCGAGGTCA… 라는 식으로 네 종류의 알파벳이 30억 개 늘어선 것이 인간의 유전정보 전체라는 뜻이다. 물론 실제로는 30억 개가 하나로 늘어선 게 아니라, 염색체로 나누어져 있고 아버지, 어머니에게서 물려받아 두 배씩 가지고 있다. 왓슨과 크릭이 DNA 이중나선 구조를 밝혀내어 1962년 노벨상을 받은 것을 계기로 생명체를 겉모습과 세포 수준에서 보다가 더 나아가 유전정보 분자 수준까지 연구할 수 있게 된 셈이다. 따라서 각 생명체의 유전정보인 DNA 서열을 쭉 읽어서 밝혀내는 것이 그 생명체의 설계도를 읽는다는 의미를 가지게 되었고 이렇게 DNA 서열의 알파벳 순서(시퀀스, sequence)를 읽는 것을 시퀀싱(sequencing)이라고 부른다.

= Whole (Full) Genome Sequencing =

말 그대로 genome 전체를 읽는 시퀀싱. 인간의 경우라면 30억 염기, 즉 30억 개의 4종류 알파벳을 읽는 게 된다. Genome은 국어사전에서는 독일어 유래인 ‘게놈’으로 표기되지만[1] 영어 발음에 가까운 ‘지넘’이라는 표기와, ‘유전체’라는 한자어도 함께 사용되고는 있다. 유전체라는 한자어는 일본어에는 없는 표현. 20세기 말에 시작되어 2003년에 완료된 생물학사상 최대규모의 프로젝트였던 human genome project가 바로 최초의 whole genome sequencing을 한 것인데, 약 10년 동안 30억 달러 정도가 투입되었다. 2012년 현재는 $1,000 에 가능한 장비(Ion Proton)가 발표되었고 시간은 하루 이내로 단축되었다[2]. 몇 년 사이에 시간은 3650분의 일, 비용은 30만 분의 일로 줄었다는 터무니없는 발전이 이루어진 셈이다.

= Targeted Sequencing =

게놈 전체를 읽는 게 아니라 관심이 있는 부분을 정해서 그 부분만 읽음으로써 시간과 비용을 줄일 수도 있다. 예를 들어 어떤 질병에 관련이 있다고 알려진 수십, 또는 수백 개의 유전자를 정하고 그 유전자만 골라서 시퀀싱 한다면 시퀀싱에 드는 시간과 비용을 줄이는 것은 물론 그 이후의 분석도 간편해진다. 전체 게놈 중에서 어떤 질병에 관련이 있다고 알려진 부분을 미리 어떻게 알아낼 수 있느냐는 점이다. 그러기 위해서는 많은 환자와 정상인에 대한 전체 게놈 시퀀싱이 미리 충분히 이루어져 과학자들이 새로운 사실을 밝혀내야 한다.

= Exome Sequencing =

전체 게놈에는 2만여 개의 유전자가 있는데 그 유전자의 엑손(exon) 부분만 다 모아서 시퀀싱 하는 방법이다. 게놈이 설계도의 역할을 해서 최종적으로 만들어지는 것은 단백질이다. 단백질이라는 것은 사실은 20종류의 아미노산이 서열을 이룬 것이고, 이것은 게놈의 4종류의 DNA로 만들어진 서열로부터 온 셈이다. 그런데 이렇게 아미노산으로 연결되는 DNA 서열은 게놈 전체에서 아주 일부만이며 게놈의 1%에 해당되는 그 아주 일부인 엑손 전체 세트를 exome이라고 한다. 따라서 이 exome만 시퀀싱 하더라도 일단 나중에 만들어질 단백질 아미노산 서열에 어떤 차이가 생길지는 알 수 있게 되는 셈이다[3].

= 시퀀서 (sequencer) =

DNA 염기서열을 눈으로 읽을 수는 없기 때문에 기계장치의 힘을 빌리는데 이렇게 DNA 샘플에서 서열을 읽어내어 사람이 읽을 수 있는, 또는 컴퓨터 전용 프로그램이 분석할 수 있는 알파벳 서열로 출력해주는 장비를 시퀀서라고 한다. 수십 년 동안 생거 시퀀싱이란 방법을 사용하는 시퀀서들이 활약했었는데(캐필러리 시퀀서), 최근 몇 년 전부터 생거 시퀀싱이 아닌 새로운 방법을 사용하는 시퀀서들이 등장해서 함께 활약하기 시작했다. 이렇게 새로 등장한 시퀀서들은 차세대 시퀀서(NGS; Next Generation Sequencer)라고 구분한다. 경우에 따라서 제2세대 시퀀서라고도 하는데 그 이유는 또 다른 방식의 시퀀서, 즉 제3세대, 제4세대 시퀀서라고 할 수 있는 것들 이 논의되거나 등장하고 있기 때문이다[4, 5].

= 차세대 시퀀서 (NGS) =

기존 생거 시퀀싱 방식에 비해서 가장 큰 특징은 한번 장치를 돌려서 나오는 데이터 양이 어마어마하게 커졌고, 또한 돌리는데 드는 비용이 또한 어마어마하게 줄었다는 것이다. 예를 들면, 기존 시퀀서로 10년 동안 30억 달러가 들던 인간 게놈 시퀀싱이 하루에 1,000 달러 정도에 가능하게 되려고 하고 있다. 이건 사실은 아는 사람들만 아는, 어느 과학기술 분야에서도 좀처럼 없는 어마어마한 변화이다. 2012년 현재 NGS의 단점은 아직 기존의 생거 시퀀싱 기법의 시퀀서에 비해서 정확성이 떨어지는 점이다. 따라서 NGS에서는 한 번에 읽어내는 양이 많다는 장점을 이용해서 같은 DNA 서열을 증폭시켜서 반복해서 읽은 것들을 한꺼번에 풀어놓고 서로 겹쳐 읽음으로써 약간 틀리는 부분들을 서로 보완해서 정확도를 높여준다. 전문용어로는 커버리지(coverage)를 높여준다는 표현을 쓰며 30X, 2000X 라는 것은 DNA 서열의 어떤 부분을 30배 또는 2000배 겹쳐서 반복해 읽었다는 뜻이다. 아무튼 이러한 단점이 있기 때문에 대부분은 NGS로 시퀀싱을 하고, 뭔가 새로운 것을 알게 되었다면 그 일부 부분에 대해서만 정확성이 높은 기존의 시퀀서로 다시 꼼꼼히 읽어서 확인하는 방법을 잘 사용한다. 차세대 시퀀서의 주요 업체는 로슈, 일루미나, 라이프 테크놀로지스 등이며, 최근에는 시퀀서 메커니즘의 차이에 따라 차세대(제2세대)만이 아니라 제3세대, 제4세대로 분류될 수도 있는 시퀀서들이 시장에 나오기 시작했다.

[1] http://krdic.naver.com/search.nhn?kind=all&scBtn=true&query=%EA%B2%8C%EB%86%88

[2] Machine to read individual’s DNA for $1,000 (Financial Times)

(http://www.ft.com/cms/s/2/e3c6b7bc-3ac3-11e1-a756-00144feabdc0.html#axzz1kuq3Fcrf)

[3] NGS를 사용한 엑솜 연구의 한계

(http://iiai.blog.me/117362100)

[4] DNA 산업 동향과 ion torrent PGM 이야기

(http://iiai.blog.me/144747536)

[5] 제3세대 시퀀서 PacBio

(http://iiai.blog.me/141672427)

Monday, November 5, 2012

i2b2 informatics for integrating Biology & the bedside

source : https://www.i2b2.org/software/index.html

i2b2: Informatics for Integrating Biology & the Bedside - A National Center for Biomedical Computing

Software

i2b2 Software

Current Version
1.6.07

Release Notes

Use the links below to access the software repository where you will find the project source code, executable files, XSD files, PDF files and more.

Launch the AJAX web client in your web browser

View By: Cells | List | Search

Enter a keyword below to filter the list of available documents:

Project
Management

Ontology
Management

High
Performance
Computing
Plug-in

Text
Analyzer
Plug-in

File
Repository

Data
Repository
(CRC)

Export
Data
Plug-in

Natural
Language
Processing

Identity
Management

Correlation
Analysis
Plug-in

Patient
Counts
Plug-in

i2b2
Web Client
Application

i2b2
Workbench
Application

Annotator
Plug-in

i2b2 Hive

Project Management
Core Server Side i2b2 Cell
This cell is used to provide user authentication and manage group and role information. It also keeps track of what cells are part of the hive.
Installation Guide
Messaging Guide
Design Document
Go to Download

Ontology Management
Core Server Side i2b2 Cell
This cell manages the terminology and knowledge information typically used in the hive. It is contacted for, or distributes knowledge to, cells during most of the hives transactions.
Installation Guide
Messaging Guide
Design Document
Architecture Document
Go to Download

High Performance Computing
i2b2 Workbench Plug-in
The High Performance Computing plug-in allows users to take advantage of resources available on a remote location, generally a compute cluster.
Installation Guide
Messaging Guide
Design Document
Plug-in is downloaded through workbench

Text Analyzer
i2b2 Workbench Plug-in
The Text Analyzer plug-in allows for the decrypting and view of the notes data in the CRC.
Help Guide
Plug-in is downloaded through workbench

File Repository
Core Server Side i2b2 Cell
This cell holds large files of data including radiological images and genetic sequences. The files are generally referenced from the Data Repository Cell.
Installation Guide
Messaging Guide
Architecture Document
Go to Download

Data Repository (CRC)
Core Server Side i2b2 Cell
This cell holds the phenotypic and genotypic data of the hive in a structured format. Data queries and visualizations are available through this cell.
Installation Guide
Messaging Guide
Design Document
Architecture Document
Plugin Analysis Document
Go to Download

Export Tool
i2b2 Workbench Plug-in
The export data view will enable users to export data from the dimension and mapping tables
Help Guide
Plug-in is downloaded through workbench

Natural Language Processing
Optional Server Side i2b2 Cell
This cell manipulates text reports to extract specific terms and knowledge from them. These concepts are then used to achieve various representations of the data.
Installation Guide
Messaging Guide
Architecture Document
Go to Download

Identity Management
Core Server Side i2b2 Cell
This cell is used to manage a patient's protected health information in a manner consistent with the HIPAA privacy rule. Patient data is available only as a HIPAA defined "Limited Data Set" to most of the hive.
Go to Download

Correlation Analysis
i2b2 Workbench Plug-in
This specialized analysis cell uses mutual information theory to calculate observed correlations within the data of the hive. This type of cell represents an important achievement of the hive.
Installation Guide
Messaging Guide
Design Document
Plug-in is downloaded through workbench

Import Tool
i2b2 Workbench Plug-in
The import data view will enable users to import data into the dimension and mapping tables
Help Guide
Plug-in is downloaded through workbench

PFT Processing
Optional Server Side i2b2 Cell
This specialized processing cell expects a pulmonary function report in a specific format and yields the embedded test values thru parsing the report. It works as part of the hive only for this specific, localized purpose.
Installation Guide
Messaging Guide
Architecture Document
Go to Download

Workflow Framework
Core Server Side i2b2 Cell
This cell is used to process information in steps through various parts of the hive. Most processed information will come to reside in the Data Repository Cell or as a display to the user.
Installation Guide
Messaging Guide
Design Document
Architecture Document
Go to Download

Table View Plug-in
i2b2 Workbench Plug-in
The i2b2 plug-in for viewing data in various tables and other graphical forrmats.
Help Guide
Plug-in is downloaded through workbench

Patient Counts Plug-in
Optional Server Side CRC Plug-in
This server-side CRC plug-in calculates patient count breakdown for the children of a given concept. It is used in conjunction with an enhanced ontology workbench plug-in.
Functional Specification
Go to Download

i2b2 Web Client
The i2b2 Web Client is a collection of client-side components designed as an YUI AJAX-based plug-ins that communicate with i2b2 Cells and allow the investigator to query and display the data of the hive.
Install Guide
Project Request Guide
Go to Download

i2b2 Workbench
The i2b2 Workbench is a collection of client-side components designed as Eclipse-based java plug-ins that communicate with i2b2 Cells and allow the investigator to query, analyze, and display the data of the hive, generally in greater depth than the web client.
Installation Guide
Tutorial Document
Developer's Guide
Go to Download Client
Go to Download Source

i2b2 Hive
The Hive is a collection of software modules that create a system to allow the use of patient data for research.
i2b2 Hive Introduction
i2b2 Message Wrapper
i2b2 Patient Data Object

Annotator Tool
i2b2 Workbench Plug-in
The annotator view will allow non-expert NLP users viewing tools for NLP output
Help Guide
Plug-in is downloaded through workbench