Showing posts with label GENE. Show all posts
Showing posts with label GENE. Show all posts

Monday, January 28, 2013

The Archon Genomics X PRIZE presented by Express Scripts

source:http://genomics.xprize.org/competition-details/prize-overview


The Archon Genomics X PRIZE presented by Express Scripts

This is a prize about all of us.

This global, incentivized competition will inspire breakthrough genome sequencing innovations and technologies with the potential to create a new era of personalized medicine. $10 million will be awarded to the first team to rapidly, accurately and economically sequence 100 whole human genomes to an unprecedented level of accuracy.
The 100 human genomes to be sequenced in this competition will be donated by 100 centenarians (ages 100 or older) from all over the world, known as there 100 Over 100. Sequencing the genomes of the 100 Over 100 presents a unique opportunity to identify those "rare genes" that protect against disease, while giving researchers valuable clues to health and longevity.
VISIT THE VALIDATION PROTOCOL INFORMATION CENTER >>
Please note: When reviewing the Competition Guidelines some elements that may be pertinent to the competition are subject to change at the sole discretion of the X PRIZE Foundation.

Partnering For a Global Consensus

The Archon Genomics X PRIZE presented by Express Scripts and Nature Genetics partnered to create an open forum to the worldwide genetics community to help further define appropriate standards for measuring the quality of whole human genome sequencing as well as create an international consensus on a standard with the creation of the Validation Protocol.
Since this PRIZE was first launched in 2006, DNA sequencing technologies both in terms of speed and reduction in costs continue to advance. However, no current human genome sequence is fully complete, fully accurate or certain to contain all rearrangements or information of chromosome phasing (haplotype). Highly repetitive and other regions remain difficult to sequence but are likely critical in defining heritable features. The Validation Protocol was built to address all of the above, as well as declare the $10 million winner of the Archon Genomics X PRIZE presented by Express Scripts, then may be used as an industry standard thereafter.
Thus, the ideals of this PRIZE remain as critical for the future of human genetics and genetic medicine as ever.
Key collaborators in development of the Validation Protocol are:
  • Coriell Institute for Medical Research, Camden, NJ
  • EdgeBio, Gaithersburg, MD
  • Harvard School of Public Health, Boston, MA
  • The Human Genome Organization (HUGO), Singapore, Thailand
  • The J. Craig Venter Institute (JCVI), Rockville, MD and San Diego, CA
  • The National Center for Supercomputing Applications (NCSA), Urbana, IL
  • Nature Genetics, New York, NY

Genomics related Like

source : http://www.dnalink.com/main/sub06_02.php


1. Database
dbSNP at NCBI http://www.ncbi.nlm.nih.gov/SNP
  International HapMap Project http://hapmap.ncbi.nlm.nih.gov
CHIP Bioinformatics Tools http://snpper.chip.org
  KSNP DB System http://ksnp.ngri.go.kr
The JSNP Database http://snp.ims.u-tokyo.ac.jp
  the Human Cytochrome P450 (CYP) Allele Nomenclature Committee http://www.cypalleles.ki.se
PharmGKB http://www.pharmgkb.org
The NIEHS SNPs Program http://egp.gs.washington.edu
GeneSNPs at the Utah Genome Center http://www.genome.utah.edu/genesnps
  The HGVbase http://www.hgvbase.org
 
  2. SNP chip
  Genetic Analysis Software List    http://www.nslij-genetics.org/soft
  Structure http://pritch.bsd.uchicago.edu/software.html
  GRR http://www.sph.umich.edu/csg/abecasis/GRR
UCSC Genome browser    http://genome.ucsc.edu
International HapMap HapMart http://hapmart.hapmap.org
Haploview    http://www.broad.mit.edu/mpg/haploview
  Phase http://stephenslab.uchicago.edu/software.html
  plink http://pngu.mgh.harvard.edu/~purcell/plink
 
  3. CNV
Database of Genetic Variants    http://projects.tcag.ca/variation
  Autism CNV Database http://projects.tcag.ca/autism_500k
 
  4. Expression
SOURCE Search http://genome-www5.stanford.edu/cgi-bin/source/sourceSearch
Panther  http://www.pantherdb.org/help/PANTHERhelp.jsp
Go miner http://discover.nci.nih.gov/gominer/index.jsp 21
DAVID Bioinformatics resource    http://david.abcc.ncifcrf.gov/home.jsp 

Tuesday, November 13, 2012

차세대염기서열분석기술(NGS) 비교와 생물정보학에서의 도전


source: http://www.insilicogen.com/blog/12


차세대 염기서열 분석기기 비교

차세대 염기서열 분석법(NGS; Next Genertation Sequencing)은 분석속도와 비용에 있어 생명과학 분야에 혁신을 가져올 것으로 예상된다. 아래 표는 현재까지 출시된 NGS 기술을 간략하게 비교해 보았다. Roche사의 454 기술은 새로운 종의 유전체 분석에 더 적합하고, Illumina나 ABI사의 기술은 알려진 유전체에서 variation을 연구하는데 더 적합할 것으로 생각된다.
기술
Roche 454 GS FLX
Illumina Genome Analyzer
ABI SOLiD Platform
응용분야
새로운 유전체 분석, resequencing, 발현체분석, 유전자조절연구, epigentic changes, 메타지놈 및 미생물다양성 연구, paleogenomics analysis
Resequencing, 발현체 분석, 유전자 조절 연구, ChIP, 작은 유전체에 대한 새로운 시퀀싱(paired-end 방법), epigenetic changes
Targeted resequencing, 유전자 발현, microRNA 발굴, ChIP, 전체 유전체 재분석(resequencing)
가시화
Light from chemical reaction
형광 표지에 의한 색상
4가지 형광 표지
Read length (한번에 읽을 수 있는 bp)
200 ~ 300
25 ~ 40
35
1회 분석시 생성 서열
80 million 이상
1 billion 이상
3 billion 이상
1회 분석 시간 (Run time)
7.5 hr
3 days, 6 days (paired-end 분석의 경우)
fragment lib: 4 days
Mate pairs lib. : 8 days
샘플 수
1회 분석시 2, 4, 13 샘플처리 가능
8 샘플
1 ~ 16 샘플
Single-read 정확도
99.5%
99.9%
97%
오류의 종류
Homopolymer errors, phase errors, chimaeras, duplicated fragments
리드 말단에서 정확도가 떨어지는 경향이 있음
Mis-incorporated bases
Multiplexing
최대 16 samples/plate, bar-coding tag 개발중
8 samples/slid, bar-coding tag 개발중
4 samples/slide, bar-coding tag 개발중
Paried-end reads
가능; 리드 사이즈 250 bp, 인서트 크기는 가변
가능; 리드 사이즈 25bp, 인서트 사이즈 250bp, 500bp contiguous fragments, 1~15kb pairs library pairsings
가능; 리드 사이즈 25bp, 인서트 사이즈 3kb~8kb

생물정보학에서의 도전

생물정보학적인 입장에서 NGS는 과거의 이슈를 새롭게 부각켰다. 한동안 생물정보 분야에서 정보 처리 속도 염기서열 데이터 통합은 이미 해결된 문제처럼 보였으나, NGS가 등장하면서 새로운 도전에 직면한다. 즉, NGS 기기를 1회 작동시키면 8천만에서 30억 bp의 염기서열이 쏟아지는데, 이를 한 주에 1~2회만 운용해도 그 자료랑은 엄청난 분량이된다. 이러한 상황에서 대규모의 서버를 구성해서 처리하는 것은 당연한 접근법이지만, 국내 실정에서 이를 위해 필요한 인력과 고정 비용을 생각하면 결코 만만치 않은 것이다.
대표적인 어셈블리 소프트웨어인 phred/phrap/consed도 NGS 데이터를 다룰 수 있도록 개정되 고 있다고 한다. 워싱턴 대학에서 제공되고 있는 phred/phrap은 2000년 이후로 알고리즘 측면에서는 이렇다할 업데이트가 없는 실정이지만, consed는 꾸준한 업데이트로 기능이 향상되고 있다. 하지만 consed를 사용해본 독자라면 윈도와 다른 그래픽 유저 인터페이스에 조금 실망하고 그 메뉴얼의 방대함에 질려본 적이 있을 것이다.
최근 서버가 아닌 노트북이나 데스크탑에서 NGS 데이터를 믿을 수 없느 속도로 처리할 수 있는 소프트웨어가 소개되었다. 덴마크의 CLC Bio(http://www.clcbio.com)사에서 제공하는 CLC Genomics Workbench라 는 제품으로대형 서버에서 병렬처리형 phred/pharp에서 수 일이 걸리던 어셈블리를 몇 가지 제약은 있지만, 단 수 시간만에 처리한다. 비교 성능이 믿기 어려울 만큼 빨라 과연 지금 소개해야 할지 의문이 들 정도이다. 포화상태인 것 처럼 보이던 어셈블리 분야에서 혁명을 이끌어 냈다는 생각이 든다. 현재 덴마크 NGS 연구 그룹에서 소프트웨어 플랫폼으로 활용되고 있다고 한다(기사읽기).
또한 FGENESH FGENESH+라는 유전자 예측 소프트웨어로 유명한 Softberry Inc에서도 NGS를OligoZip를 출시하였다. 미생물 유전체 분석을 실제로 수행한 결과는 기존의 어셈블리 프로그램보다 우수한 clustering 결과를 얻었다고 한다1. Solexa sequencing을 통해서 얻어진 작은 서열들을 모아서 reference가 없는 새로운 genomic 서열 구성하거나, 동일종 또는 비슷한 종의 서열을 참고로 genomic 서열 구성할 수 있다. 그리고, 주어진 유전자에 대하여 돌연변이 검출이나 SNP discovery에도 효과적이라고 한다.
인간유전체 발표후에 기대에 비해서 체감할 수 있는 변화가 미비했었지만, NGS의 출현으로 생물정보학의 역할에 대해서 환기되는 새로운 전기가 될 것으로 기대하며 NGS와 관련 프로그램에 대해서 간략히 살펴보았다.
  • 1 Bioinofrmatics, 2007, 23(4):500-501

유전자 검사란 ?




지놈과 유전자 분석 기술

http://www.biochem.or.kr/webzine_img/2010_04_img/02.pdf

Monday, November 5, 2012

DNA Transcription


http://biology.about.com/od/cellularprocesses/ss/Dna-Transcription.htm


DNA Transcription


By Regina Bailey, About.com Guide


DNA Transcription



National Human Genome Research Institute

.DNA transcription is a process that involves the transcribing of genetic information from DNA to RNA. The transcribed DNA message is used to produce proteins. DNA is housed within the nucleus of our cells. It controls cellular activity by coding for the production of enzymes and proteins. The information in DNA is not directly converted into proteins, but must first be copied into RNA. This ensures that the information contained within the DNA does not become tainted.

DNA Transcription

DNA consists of four nucleotide bases [adenine (A), guanine (G), cytosine (C) and thymine (T)] that are paired together (A-T and C-G) to give DNA its double helical shape.



There are three main steps to the process of DNA transcription.

•RNA Polymerase Binds to DNA



DNA is transcribed by an enzyme called RNA polymerase. Specific nucleotide sequences tell RNA polymerase where to begin and where to end. RNA polymerase attaches to the DNA at a specific area called the promoter region.





•Elongation



Certain proteins called transcription factors unwind the DNA strand and allow RNA polymerase to transcribe only a single strand of DNA into a single stranded RNA polymer called messenger RNA (mRNA). The strand that serves as the template is called the antisense strand. The strand that is not transcribed is called the sense strand.



Like DNA, RNA is composed of nucleotide bases. RNA however, contains the nucleotides adenine, guanine, cytosine and uricil (U). When RNA polymerase transcribes the DNA, guanine pairs with cytosine and adenine pairs with uricil.





•Termination



RNA polymerase moves along the DNA until it reaches a terminator sequence. At that point, RNA polymerase releases the mRNA polymer and detaches from the DNA.

Since proteins are constructed in the cytoplasm of the cell by a process called translation, mRNA must cross the nuclear membrane to reach the cytoplasm. Once in the cytoplasm, mRNA along with ribosomes and another RNA molecule called transfer RNA, work together to produce proteins. Proteins can be manufactured in large quantities because a single DNA sequence can be transcribed by many RNA polymerase molecules at once.



Cells

•Cell Structure

•Prokaryotic Cells

•10 Facts About Cells

Cell Quizzes

•Cell Anatomy Quiz

•Plant Cell Quiz

•Mitosis Quiz

See More About:dna transcriptioncell anatomydnagenetics

Related Articles

•Transcription - Steps of Transcription

•Transcription - RNA synthesis - Gene Expression

•Microsatellite

•Transcription - What Is Transcription

•siRNA - Small Interfering RNA - RNA interference

Wednesday, October 10, 2012

유전자란 무엇인가?



   DNA, 유전자, 염색체는 많은 경우에 상호교환이 가능하게 사용할 수 없을 정도로 서로 다른 개념이다. DNA가 모여 생물학적으로 '의미'를 갖는 것이 유전자이며, 유전자와 기타 DNA가 모인 후, 매우 여러 번 꼬인 형태로 존재하는 것이 염색체이다.

   시작하기에 앞서 앞에서부터 차례대로 읽어나가면서 자연스럽게 이해가 되도록 글을 쓰는 방법을 찾지 못했다. 앞에 나오는 내용이 뒤에 나올 내용에 의존하는 경우가 종종 생긴다. 따라서 나는 이 글을 이해하고자 한다면, 최소한 2번 읽을 것을 권한다. (그림이 많아서 그런지 글이 좀 길게 느껴진다.)

목적: 유전자, 염색체, DNA 의 개념을 이해한다.

사족: 생물학의 급격한 발달에 힘입어, 요새는 유전자라는 말을 자주 사용한다. 나는 사람들이 '유전자'라는 단어만을 아는 것에서 벗어나, 그것의 실체를 알았으면 하는 마음에 글을 쓴다. 노파심에, 여기서 말하는 것 역시 개략적인 내용이라는 것을 염두하여, 이 글의 내용을 아는 것을 갖고 상당히 많이 안다고 착각하면 안된다.
  

  우리의 목적을 위해 생물체를, 수많은 화학 반응이 일어나고 있는 생체기계로 생각하자. 화학 반응이 일어나기 위해 필요한 것은 크게 4가지,

  (1)반응이 일어날 화학 물질

  (2)반응을 일으킬 수 있는 도우미(촉매)

  (3)반응이 일어날 공간

  (4)반응에 필요한 에너지

로 나눌 수 있다. 에너지는 궁극적으로 태양과 식물로부터 얻고, ATP형태로 저장된다. ATP는 생체 에너지의 기본 단위라는 정도로만 이해하자. 생명은 에너지가 있어야 살 수 있는데, 그 에너지가 ATP라는 화학 물질 형태로 저장된다.



  생명을 공부할 때는, 어떤 물질이 어떤 과정을 거쳐 어떤 일을 하는가를 중점적으로 하면 좋다. 즉, 어떤 현상에 대해, 어떤 물질들이 어떤 관계를 갖고 그 현상을 일으키는가를 공부하면 된다는 말이다. 이것을 염두해 두고, 계속 읽어 나가자.



  생체 반응은 대부분 단백질에 의해, 단백질을 위해 일어난다. 반응이 일어나는 공간, 즉 세포와, 특정한 목적을 위해 세포가 조직적으로 모여 만들어진 조직(organ), 그 조직들이 상호 의존하여 만들어진, 우리의 신체, 이것들을 구성하는 물질은 상당수가 단백질로 만들어져 있다. 또한, 일반적인 환경에서는 일어나기가 상당히 어려운 화학 반응도 신체에서는 놀라울 정도로 빠르고, 정교하게 일어나는데, 이 때 촉매가 절대적으로 필요하다. 이 촉매 역시 상당수가 단백질로 이루어져 있다. 탄수화물과 지방이 주로 에너지원으로 사용되는 것에 비해, 단백질은 생명체의 구성 성분으로 사용된다. 에너지원으로 사용할 탄수화물과 지방이 없을 때, 즉 굶주렸을 때, 신체 구성물질인 단백질이 에너지원으로 사용되고, 그래서 마르게 되는 것이다. 이것으로 단백질이 생명체에게 매우 중요하다는 것을 일단 인정하도록 하자.



  그렇다면 단백질은 어디에서 만들어지는가? 이 단백질이 바로 유전자로부터, 유전자와 단백질에 의해 만들어지는 것이다. (우선은 도식적인 그림(schematic figure)을 사용하겠다. 자세한 원래 모양은 이야기가 끝난 뒤에 있다) 유전자는 DNA로 이루어져 있다. DNA의 기본 단위 구조는 다음과 같다. 각각은 '화학물질'에 대한 이름이다. 즉, 비타민이 특정 화학 구조를 갖는 물질에 대한 이름이듯이, nucleoside라는 것도 역시 특정 화학 구조를 갖는 '화학물질'에 대해 부여한 이름인 것이다.





Nucleotide(이 단어는 번역이 안되어 있는 것 같다)가 여러 개 모인 형태, 즉





이렇게 nucleotide가 매우 길게 연결된 것이 DNA이다. 이 때 염기에는 4 종류가 있다. 즉, 아데닌(Adenine), 타이민(thymine), 싸이토신(Cytosine), 구아닌(Guanine). 이 염기의 순서가 '정보'가 되는 것이다. 알파벳이 26자로 이루어진 것이 어떻게 배열되느냐에 따라 의미를 갖는 것과 마찬가지로, DNA도 4종류인 염기가 어떻게 배열되느냐에 따라 의미가 달라지는 것이다. 영화에 나오는 atgcgatgccc 이런 식으로 길게 나오는 것은 바로 이것을 의미하는 것이다. 그렇다면 염기의 배열 순서는 어떤 의미를 갖는 것일까? 이것을 알기 위해서는 우선 단백질에 대해 조금 더 알아야 한다.

   단백질은 20 종류의 기본 단위(아미노산)로 이루어져 있다. 알파벳은 26종류의 글자의 배열이 의미를 이루고(saw는 was와 분명 다르다), DNA는 4종류의 염기의 배열이 의미를 이루는 것과 유사하게, 단백질은 20종류의 아미노산의 배열이 의미를 결정한다. 여기에서 단백질의 의미라 함은 단백질의 구조와 기능이다. 즉, 20종류의 아미노산의 배열 순서와 배열 길이가 단백질의 구조와 기능을 결정한다고 할 수 있다. 앞에도 말했듯이 단백질은 유전자로부터 만들어진다. 바로 3개의 nucleotide가 모여 하나의 아미노산을 결정하는 것이다. 이렇게 하나의 아미노산을 결정짓는 3개의 nucleotide 한 쌍을 genetic code 혹은 codon 이라 한다. 예를 들면, aac는 발린이라는 아미노산을 의미한다. 즉, 아미노산이 길게 연결되어 단백질이 만들어지고 있는 도중에 aac라는 codon을 만나게 되면, 발린이라는 아미노산이, 이미 만들어진 아미노산들에 연결이 되는 것이다. 따라서 100개의 아미노산이 연결된 단백질을 만들기 위해서는 303개의 nucleotide가 필요하다. 왜 303개인가?



DNA 는 nucleotide가 수백만개 연결된 것에 불과하다. 그 안에 단백질이 될 수 있는 여러 부분이 존재하는데, 어떻게 단백질이 될 수 있는 부분의 시작과 끝을 알 수 있을까? 그것은 시작 코돈과 종료 코돈을 통해 이루어진다. '지금부터는 단백질로 만들어지는 부분이다'라고 알려주는 코돈이 존재한다. 사람의 경우 DNA 상의 cat 코돈이다(반론하고 싶은 사람은, DNA 상이라는 말을 다시 생각해보기 바란다. 분생이나 생화학 책에 나와 있는 codon은 알다시피 mRNA 상의 sequence이다). 또한 '이제 단백질 만드는 것을 중지하라'라고 알려주는 코돈도 존재한다. 사람의 경우, tta, cta, tca이다. 즉, DNA가 길게 연결되어 있을 때, 아무데서나부터 단백질을 만들기 시작하고, 적당할 때 단백질 합성을 중지하는 것이 아니라, 단백질 합성의 시작과 끝을 알려주는 코돈(3개의 nucleotide)이 존재하는 것이다. 그래서 100개의 아미노산에 대한 300개의 nucleotide와 종료 코돈 3개의 nucleotide가 필요한 것이다.

   유전자는 단백질로 변환될 수 있는 DNA 서열의 일부라 고 할 수 있다. 그러나 이것은 약간 문제가 있는 발언이다. 왜냐 하면, 비록 단백질로 변환되지 않는 DNA 서열이더라도, 특정 부분의 DNA 서열이 단백질로 변환되는 것에 영향을 미치는 부분이 존재하기 때문이다. 아직까지 생물학자들 사이에서도 유전자의 명확한 정의가 확립되지 않았다. 책에 나와 있는 정의를 보면,
1. gene: The basic unit of heredity. Contains the information for making one RNA, and, in most cases, one polypeptide. (Molecular Biology 2nd Ed. by Robert Weaver)
2. gene: A chromosomal segment that codes for a single functional polypeptide chain or RNA molecule. (Lehninger Principles of Biochemistry 3rd Ed)
3. gene: The fundamental physical unit of heredity whose existence can be confirmed by allelic variants and which occupies a specific chromosomal locus. A DNA sequence coding for a single polypeptide. (Concepts of GENETICS 6th Ed. by William S. Klug and Michael R. Cummings)

1. 유전자: 유전의 기본 단위. 하나의 RNA, 그리고 대부분의 경우 하나의 단백질을 만드는 정보를 갖고 있음.
2. 유전자: 기능을 할 수 있는 하나의 단백질 혹은 RNA 분자를 만들 수 있는, 염색체의 일부분.
3. 유전자: 유전의 물리적 기본 단위. 유전자의 존재는 유전자에 의해 나타나는 형질이 여러 개가 있다는 것으로 알 수 있다. 유전자는 염색체 상에서 특정 위치를 차지한다. 하나의 단백질을 만들 수 있는 DNA 서열.

   대체로 단백질이나 RNA(DNA에서 RNA가 만들어 진다. RNA에서, 또한 RNA에 의해 단백질이 만들어진다)를 만들 수 있는 DNA 서열의 일부분으로 나와 있다. 그러나 나는 개인적으로 다음과 같은 정의를 좋아한다. "DNA 서열의 일부로써, 다음 조건을 만족시키면 유전자이다 : 서열의 변화가 생명체에 변화를 일으켜야 한다." 다른 방법으로 정의하자면, "서열의 변화가 생명체에 변화를 일으키지 않는다면 유전자라 할 수 없다."

   염색체는, 매우 긴 DNA 서열이 작은 세포에 들어가기 위해 매우 조밀하게 꼬이고 꼬인 상태를 말하는 것이다. 즉, 염색체라는 것은 DNA 서열이 갖는 모양에 대한 이름이다. (DNA molecules are commonly packaged into structures called chromosomes.)

염색체의 구조
염색체의 구조. 이 그림은 내가 고등학교 다닐 때 사용한 생물II 교과서에 있는 그림을 scan한 것이다. 이 그림이 그 때 매우 인상적이어서 생물II 책을 지금도 갖고 있고, 이 글을 쓸 때 자연스레 이 그림이 생각났다. 내 선택과목은 화학II 였다.





이제는, '유전자는 염색체 상에 존재하고, 유전자와 염색체는 DNA로 이루어져 있다'는 말을 명확하게 이해할 수 있기를 바란다.

위에서 말한, A, T, G, C의 실제 화학 구조는 다음과 같다.




nucleotide의 구조는 다음과 같다.




염기는 물론, A,T,G,C 등이 될 수 있다.

nucleotide가 연달아 있는 것은,


마지막으로 예전의 수학적으로 0, 차원이 다른 이야기 의 글에서 말했듯이 DNA는 엄청나게 compaction(압축)되어 있어서, 대장균을 터트려 그 DNA가 밖으로 나온 것을 찍으면,

K-RAS란 ?

http://cafe.daum.net/dna-cafe/Tgbv/34?docid=1Lcdr%7CTgbv%7C34%7C20110107113228&q=RAS

DNA RNA 란 ?

http://blog.naver.com/PostView.nhn?blogId=tyu5004&logNo=140124014676&redirect=Dlog&widgetTypeCall=true