한국인간유전자은행

BIO HEALTH SCIENCE

KHGB 한국인간유전자은행이 함께 합니다.

cDNA

  • Korean UniGene Construction
  • PCR based Oligo-capping
  • Clone Annotation Process

01. mRNA Sources

  • Stomach: cancer cell lines, Normal tissues, Primary cancer tissues
  • Liver: cancer cell lines, Normal tissues, Primary cancer tissues
  • Brain: Normal tissues, Primary cancer tissues
  • Cervix: Cancer cell lines
  • Thymus: Normal tissues
  • 각 library별로 사용된 mRNA source, vector, library type 등 보다 자세한 사항은 [Library Bank] 참조

02. Library Types

  • Library Bank for distribution
  • [F] Full-length enriched cDNA library
  • [U] Universal cDNA library
  • [Fs] Subtracted full-length enriched cDNA library
  • [Un] Normalized universal cDNA library
  • [Us] Subtracted universal cDNA library

03. Vectors

  • pTZ18RP1
  • pT7T3-Pac
  • pCNS-D2: mammalian expression vector (CMV promoter)
  • pCNS (AF416744): mammalian expression vector (CMV promoter)
  • pME18S-FL3 (AB009864): mammalian expression vector (SV40 promoter)(*Kindly gifted by Dr. Sugano)
  • Other

04. Library Construction Methods

  • PCR based Oligo-capping method (EMM, 35 (6), 586-590, 2003) [ PubMed]
  • Oligo-capping method (Gene 138: 171-174, 1994) [ PubMed]
  • Capping method (Gene 150: 243-245, 1994) [ PubMed]
  • 모든 clone은 그 제조 방법으로 미루어, 3'-untranslated region을 가지고 있을 것으로 예상됨.

05. Sequencing

  • Sequenced direction: 5'-end
  • Sequencing machines: ABI 3700, MegaBACE 1000, MegaBACE 4000
  • Sequencing primers

06. EST Analyses

  • Basecalling: phred
  • Vector-trimming: fasta
  • Repeat-masking: RepeatMasker
  • Annotation: BLASTN against human mRNA, human UniGene; BLASTX against NR proteins
  • Clustering: cap3
  • sequencing error나 overlap이 없는 경우 등, 다양한 이유로 인하여 동일 gene이 두개 이상의 cluster로 묶이거나, 비슷한 paralogous gene들이 하나의 cluster로 묶일 수 있음.

07. Clustering & Re-Arraying

  • Non-redundant clone의 유지 및 분양을 위하여 대표 clone을 모아 재배열함.
  • Contig generation: cap3
  • Annotation: BLASTN against human mRNA, human UniGene; BLASTX against NR proteins
  • Clone에 대한 정보는 annotation을 한 방법 및 시점에 따라 다소 차이가 있거나, 새로운 정보가 반영되지 못할 수도 있음.

01. 각 클론에 대한 기본 정보 수집

1) CLONE ID :

  • KU :Korean UniGene Clone, supported by The Center for Functional Analysis of Human Genome, 21C frontier
  • BKU :Brain Korean UniGene Clone, supported by The Korea Human Gene Bank
  • hMU : Human MGC (Mammalian Gene Collection) Clone, supported by NCI
  • hIU : Re-Sequenced Human InCyte (UniGEM V2) Clone , supported by The Center for Functional Analysis of Human Genome, 21C frontier
  • BU : Mouse BMAP Clone, supported by Brain Molecule Anatomy Project
  • NU : Mouse NIA Clone, supported by National Institute of Aging
  • mNU : Mouse MGC Clone, supported by Mammalian Gene Collection, NCI

2) CLONE PLATE

  • CLONE containing library information
  • mRNA Source / Vector / Methods of libraries
  • 5' End and Contig Seqeunce

02. Public database 에서의 homology 검색

1) 사용한 data source :

  • Human Refseq (from Mar 03 2020)/Unigene (from Apr 25 2013)
  • Mouse Refseq ( from Dec 06 2016)

2) 클론 annotation :

  • Known gene : RefSeq mRNA 또는 human mRNA에 대해 90% 이상의 identity를 가질 경우
  • Known EST : RefSeq mRNA 또는 human mRNA에 대해 90% 이하의 identity를 가지고 UniGene ESTs에 대해 90% 이상의 identity를 가질 경우
  • Novel gene : 위의 Known gene, Known EST에 해당되지 않는 경우 Novel gene으로 정의함

3) 각 gene에 대한 정보 추출 :

  • Symbol, Alias, and Title of Gene, chromosome, GO (Gene Ontology) , and OMIM

03. Fullness의 명명

1) RefSeq mRNA 또는 Human mRNA에서 FASTA 프로그램 수행

  • F (Full-length clone) : 유전자의 CDS 염기서열의 개시코돈과 종결코돈을 완전히 포함하며 90% 이상의 identity를 가지는 경우, (Sequence verified)
  • FC (Full-length Candidate) :
    a. 유전자의 CDS 개시코돈으로 부터 연속적으로 50bp 이상의 염기서열을 포함하며 90% 이상의 identity를 가지는 경우, (5’ end sequenced)
    b. 5'UTR 영역부터 100bp 이상 염기서열을 포함하며 90% 이상의 identity를 가지는 경우, (5’ end sequenced)
  • P (partial clone) : 유전자의 CDS 개시코돈을 포함하지 않고 부분적인 염기서열을 포함하며 90% 이상의 identity를 가지는 경우
  • Unknown : 유전자의 CDS 정보가 명시되어 있지 않는 경우
  • - : RefSeq mRNA or Humn mRNA에 대해 identity가 90% 이하일 경우

04. Public database 에서의 다양한 정보 추출

  • 1) Genome Mapping 정보: UCSC Genome Browser (with over 90% identities)
  • 2) Signal Transduction Pathway 정보 : BioCarta
  • 3) 질병과 유전자 발현 패턴 관련 정보 :WIGED (by NGIC), GeneCards (by weizmann), SOURCE (by stanford)
  • 4) 단백질과 Genome Annotation 관련 정보 : ExPASY, ENSEMBL
  • 5) Motif 와 Initiation codon 관련 정보 : BLOCKS, ATPpr, BLASTX, ...
btn-top