-GenBank Example Flat file-
제가 쓰고 있는 format은 genbank에요^^ 아래는 genbank flat file이고요... flat파일의 각 field마다 주석을 표로 정리 해봤습니다. 음 한글로 번역했습니다. 번역이 이상할지도 몰라요 제가 사용하지 않는 부분이 대부분이라... 음..... 사실 물리학이 전공인 제가 생물(?)쪽인듯한 유전자 분석을 하고 있으면 이상하게 생각하실지 모르겠습니다.. 하지만 물리에는 엄연히 Bioinformatics와 관련해서 연구하는 분들이 꽤 많다는거.......(참고로 Genbank는 미국의 NCBI에서 EMBL은 유럽에서 DDBJ는 일본에서 만든 format이랍니다. 한국에서 독자적으로 연구되었다면 참 좋았을텐데 말이죠) :)
LOCUS X61622 1476 bp mRNA linear PRI 15-JAN-1992
DEFINITION H.sapiens CDK2 mRNA.
ACCESSION X61622
VERSION X61622.1 GI:29848
KEYWORDS CDK2 gene; cell cycle regulation protein; cyclin A binding; protein
kinase.
SOURCE Homo sapiens (human)
ORGANISM Homo sapiens
Eukaryota; Metazoa; Chorata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
Catarrhini; Hominidae; Homo.
REFERENCE 1 (bases 1 to 1476)
AUTHORS Elledge,S.J. and Spottswood,M.R.
TITLE A new human p34 protein kinase, CDK2, identified by complementation
of a cdc28 mutation in Saccharomyces cerevisiae, is a homolog of
Xenopus Eg1
JOURNAL EMBO J. 10 (9), 2653-2659 (1991)
PUBMED 1714386
REFERENCE 2 (bases 1 to 1476)
AUTHORS Elledge,S.J.
TITLE Direct Submission
JOURNAL Submitted (28-NOV-1991) S.J. Elledge, Dept. f Biochemistry, Baylor
College of Medicine, 1 Baylor Place, Houston, TX 77030, USA
FEATURES Location/Qualifiers
source 1..1476
/organism="Homo sapiens"
/mol_type="mRNA"
/db_xref="taxon:9606"
/clone="pSE1000"
/cell_line="EBV transformed Human peripheral lymphocyte
(B-cell)"
/clone_lib="lambda YES-R cDNA library"
gene 1..1476
/gene="CDK2"
CDS 1..897
/gene="CDK2"
/function="protein kinase"
/note="cell division kinase. CDC2 homolog"
/codo_start=1
/protein_id="CAA43807.1"
/db_xref="GI:29849"
................중략
/db_xref="PDB:2EXM"
/db_xref="UniProtKB/Swiss-Prot:P24941"
/translation="MENFQKVEKIGEGTYGVVYKARNKLTGEVVALKKIRLDTETEGV
PSTAIREISLLKELNHPNIVKLLDVIHTENKLYLVFEFLHQDLKKFMDASALTGIPLP
LIKSYLFQLLQGLAFCHSHRVLHRDLKPQNLLINTEGAIKLADFGLARAFGVPVRTYT
HEVVTLWYRAPEILLGSKYYSTAVDIWSLGCIFAEMVTRRALFPGDSEIDQLFRIFRT
LGTPDEVVWPGVTSMPDYKPSFPKWARQDFSKVVPPLDEDGRSLLSQMLHYDPNKRIS
AKAALAHPFFQDVTKPVPHLRL"
ORIGIN
1 atggagaact tccaaaaggt ggaaaagatc ggagagggca cgtacggagt tgtgtacaaa
61 gccagaaaca agttgacggg agaggtggtg gcgcttaaga aaatccgcct ggacactgag
121 actgagggtg tgcccagtac tgccatccga gagatctctc tgcttaagga gcttaaccat
181 cctaatattg tcaagctgct ggatgtcatt cacacagaaa ataaactcta cctggttttt
241 gaatttctgc accaagatct caagaaattc atggatgcct ctgctctcac tggcattcct
301 cttcccctca tcaagagcta tctgttcag ctgctccagg gcctagcttt ctgccattct
361 catcgggtcc tccaccgaga ccttaaacct cagaatctgc ttattaacac agagggggcc
421 atcaagctag cagactttgg actagccaga gcttttggag tccctgttcg tacttacacc
481 catgaggtgg tgaccctgtg gtaccgagct cctgaaatcc tcctgggctc gaaatattat
541 tccacagctg tggacatctg gagcctgggc tgcatctttg ctgagatggt gactcgccgg
601 gccctgttcc ctggagattc tgagattgac cagctcttcc ggatctttcg gactctgggg
661 accccagatg aggtggtgtg gccaggagtt acttctatgc ctgattacaa gccaagtttc
721 cccaagtggg cccggcaaga ttttagtaaa gttgtacctc ccctggatga agatggacgg
781 agcttgttat cgcaaatgct gcactacgac cctaacaagc ggatttcggc caaggcagcc
841 ctggctcacc ctttcttcca ggatgtgacc aagccagtac cccatcttcg actctgatag
901 ccttcttgaa gcccccgacc ctaatcggct caccctctcc tccagtgtgg gcttgaccag
961 cttggccttg ggctatttgg actcaggtgg gccctctgaa cttgccttaa acactcacct
1021 tctagtctta accagccaac tctgggaata caggggtgaa aggggggaac cagtgaaaat
1081 gaaaggaagt ttcagtatta gatgcactta agttagcctc caccaccctt tcccccttct
1141 cttagttatt gctgaagagg gttggtataa aaataatttt aaaaaagcct tcctacacgt
1201 tagatttgcc gtaccaatct ctgaatgccc cataattatt atttccagtg tttgggatga
1261 ccaggatccc aagcctcctg ctgccacaat gtttataaag gccaaatgat agcgggggct
1321 aagttggtgc ttttgagaat taagtaaaac aaaaccactg ggaggagtct attttaaaga
1381 attcggttaa aaaatagatc caatcagttt ataccctagt tagtgttttc ctcacctaat
1441 aggctgggag actgaagact cagcccgggt gggggt
//
* 각 LOCUS DEFINITION ACCESSION .... 등을 field라고 한다.
-Genebank Field definition-
FILED
Description
LOCUS
짧고 연상하기 쉬운 entry의 이름. sequence의 정의를 위해 선택된다. 각 entry당 1개가 꼭 필요
DEFINITION
Sequence에 대한 간단한 설명. 각 entry에 적어도 1개 필요
ACCESSION
각 sequence의 고유한 번호로서 각 entry에 불변의 코드로 할당되어 있다.
VERSION
ACCSION # + VERSION # 로 구성되어 있고 GI 라고 하기도 함.
KEYWORDS
유전적 산물과 그 entry에 관한 다른 정보를 짧은 구절로 묘사한다. 적어도 1개가 필요
SOURCE
문헌에서 자주 일반적으로 사용되는 이름 모든 entry에 대해 의무사항
ORGANISM
계체의 학명과 분류군 의무사항이다.
REFERENCE
entry에 대한 데이터를 포함하는 논문을 인용한다.
AUTHORS
저자이름
TITLE
논문 제목
JOURNAL
학술지명
FEATURE
단백질과 RNA분자를 CODE하는 부분의 정보를 포함하고, 실험적으로 생물학적 중요성이 있다고 결정된 부분 SOURCE GENE CDS를 포함한다.
ORIGIN
리포트 된 sequence의 첫 번째 염기가 어떻게 게놈 에서 위치해 있는지를 구체화한다.
/
Description
/allele=
주어진 유전자의 대립 유전자의 이름
/citation=
레퍼런스 field에서 나열된 인용 레퍼런스
/codon=
참고 유전코드에서 찾은 것들 중 다른 codon을 명시한다.
/codon_start=
첫 번째 완성된 codon을 어디서 찾을 수 있는지 지시
/db_xref=
Database cross - reference: 다른 데이터베이스에서 관련된 정보를 지시한다.
/EC_number=
sequence의 효소 산물을 위한 효소 수행 수
/evidence=
실험적결정과 이론적 데이터를 구분하는 증거의 값
/exception=
아미노산이나 RNA 서열이 정규적 생물법칙에 따라 DNA배열과 맞거나 전이되지 않는 것을 나타낸다.
/function=
sequence에 있는 기능
/map=
feature의 유전적 지도 위치
/note=
주석이나 추가적인 정보
/protein_id=
단백질 식별자
/pseudo=
이 feature가 non-functional version임을 나타낸다.
/standard_name=
이 feature를 위한 표준적 이름
/translation=
아미노산 sequence를 하나의 문자로 자동으로 생성된 축약이다.
/transl_except=
Translation exception:
/transl_table =
???
/usedin=
다른 entry에서도 이 feature가 복합적으로 사용된다는 것을 가리킨다.
