DDBJ/GenBank

DDBJ(日本)、GenBank(米国)は DNA や RNA などが登録されている核酸データベースである。タンパク質のアミノ酸や SNPs などの情報も保存されている。

DDBJ や GenBank に登録されているデータには冗長性がある。 例えば、同じ生物種の同じ遺伝子について複数グループが研究している場合に、それぞれの研究グループが別々に塩基配列を登録するため、重複が生じる。また、あるグループが第101番目~第1902番目の塩基をコーディング領域として登録しているのに対して、他のグループが第302番目~第2010番目として登録する可能性も十分にありうる。

DDBJ/GenBank のデータを利用する際に、冗長性や注釈の曖昧性があることを考慮しなければない。

GenaBank 形式のファイル

GenBank に登録されているファイルは、GenBank 形式で書かれている。次に示したように、各業の最初の 12 文字はレコード名が書かれており、その行に何が書かれているのかを示している。GenBank 形式では 1 つのエントリーに対して、「LOCUS」行から始まり、「//」で終わる。

LOCUS       LISOD                    756 bp    DNA     linear   BCT 30-JUN-1993
DEFINITION  Listeria ivanovii sod gene for superoxide dismutase.
ACCESSION   X64011 S78972
VERSION     X64011.1  GI:44010
KEYWORDS    sod gene; superoxide dismutase.
SOURCE      Listeria ivanovii
  ORGANISM  Listeria ivanovii
            Bacteria; Firmicutes; Bacillales; Listeriaceae; Listeria.
REFERENCE   1  (bases 1 to 756)
  AUTHORS   Haas,A. and Goebel,W.
  TITLE     Cloning of a superoxide dismutase gene from Listeria ivanovii by
            functional complementation in Escherichia coli and characterization
            of the gene product
  JOURNAL   Mol. Gen. Genet. 231 (2), 313-322 (1992)
  MEDLINE   92140371
REFERENCE   2  (bases 1 to 756)
  AUTHORS   Kreft,J.
  TITLE     Direct Submission
  JOURNAL   Submitted (21-APR-1992) J. Kreft, Institut f. Mikrobiologie,
            Universitaet Wuerzburg, Biozentrum Am Hubland, 8700 Wuerzburg, FRG
FEATURES             Location/Qualifiers
     source          1..756
                     /organism="Listeria ivanovii"
                     /strain="ATCC 19119"
                     /db_xref="taxon:1638"
                     /mol_type="genomic DNA"
     RBS             95..100
                     /gene="sod"
     gene            95..746
                     /gene="sod"
     CDS             109..717
                     /gene="sod"
                     /EC_number="1.15.1.1"
                     /codon_start=1
                     /transl_table=11
                     /product="superoxide dismutase"
                     /db_xref="GI:44011"
                     /db_xref="GOA:P28763"
                     /db_xref="InterPro:IPR001189"
                     /db_xref="UniProtKB/Swiss-Prot:P28763"
                     /protein_id="CAA45406.1"
                     /translation="MTYELPKLPYTYDALEPNFDKETMEIHYTKHHNIYVTKLNEAVS
                     GHAELASKPGEELVANLDSVPEEIRGAVRNHGGGHANHTLFWSSLSPNGGGAPTGNLK
                     AAIESEFGTFDEFKEKFNAAAAARFGSGWAWLVVNNGKLEIVSTANQDSPLSEGKTPV
                     LGLDVWEHAYYLKFQNRRPEYIDTFWNVINWDERNKRFDAAK"
     terminator      723..746
                     /gene="sod"
ORIGIN
        1 cgttatttaa ggtgttacat agttctatgg aaatagggtc tatacctttc gccttacaat
       61 gtaatttctt ..........
//

レコード名

GenBank 形式のファイルの各行の先頭 12 文字が示す意味は、すでに定義されている。詳細なフォーマットはDDBJ の解説サイトを参考するとわかりやすい。その一部を以下に示す。

LOCUS

GenBank 形式のファイルの一番先頭に LOCUS レコードがある。次のようにサマリー情報が記載されている。

LOCUS       LOCUS名     塩基の長さ  核酸タイプ  染色体タイプ  division 公開日

核酸のタイプには DNA、RNA、mRNA、rRNA、tRNA、cRNA のいずれかが記載れる。また、染色体タイプは linear か circular が記載される。Division にはデータの所属カテゴリーが記載される。Division に関しては次のようになっている。

division意味
HUMヒト
PRI霊長類 (ヒトを除く)
POD齧歯類
MAM哺乳類 (ヒト,霊長類,齧歯類を除く)
VRT脊椎動物 (ヒト,霊長類,齧歯類,哺乳類を除く)
INV無脊椎動物
PLN植物・真菌類など
BCTバクテリア
VRLウイルス
PHGバクテリオファージ
HTCEST 以外の cDNA 配列プロジェクトに由来するデータ
HTGゲノムプロジェクトに由来するデータ
CONゲノムプロジェクトによって登録された複数のデータを、データベース側で 1 つにまとめたデータ。データが非常に大きいため、ファイルには塩基配列がは記載されていない

ACCESSION

データベースに登録する際に付けられる登録番号。通常アルファベット 1 文字と数字 5 桁の組み合わせか、アルファベット 2 文字と数字 6 桁の組み合わせからなる。データの更新などに伴って変化する場合がある。ACESSION には昔に使われた登録番号も記載される。

SOURCE / ORGANISM

SOURCE レコードには生物の学名が記載されている。また、一般名が存在すること、それも合わせて記載される。

ORGANISM レコードでは、1 行目に生物の学名あるいは Unified Taxonomy Database に登録されて名前が記載される。2 行目以降に Unified Taxonomy Database に基づく生物学的分類が記載される。

FEATURES

FEATURES レコードには塩基配列のアノテーションが記載される。登録されている全塩基配列のうち、どの部分が mRNA なのか、その部分が exon なのかが詳細に気差されている。コーディング領域の場合、翻訳されたアミノ酸配列も記載される。

Feature レコードにおいて、最初の 20 文字には feature key が記載される。21 文字目が空白。22 文字目から 80 文字目までは、その feature を示す領域の開始位置や終了位置、その他のアノテーション情報などが記載される。

例えば、以下に示した GenBank 形式の例では source、gene、CDS の 3 種類の feature key が確認できる。source には登録された塩基の番号が 1 から 8959 まであることがわかる(この塩基番号に対応する塩基配列は ORIGIN レコードに記載されている)。長さ 8959 の塩基配列のうち、212 ~ 8680 番目の塩基が実際の遺伝子としてマークされている。そして、実際にタンパク質をコーディングする領域は 212~8668 番目の塩基である。

     source          1..8959
                     /organism="Homo sapiens"
                     /db_xref="taxon:9606"
                     /mol_type="genomic DNA"
     gene            212..8680
                     /gene="NF1"
     CDS             212..8668
                     /gene="NF1"
                     /note="putative"
                     /codon_start=1
                     /product="GAP-related protein"
                     /protein_id="AAA59924.1"
                     /translation="MAAHRPVEWVQAVVSRFDEQLPIKTGQQNTHTKVSTE.......
---------+---------+---------+---------+---------+---------+---------+---------
1       10        20        30        40        50        60        70       79

1..8959 や 212..8668 などは location と呼ばれ、塩基の特徴に応じて様々な記述方法がある。また、location が非常に長い場合は、複数行に渡って記載される。location の記載方法は以下のようになっている。

467
# その feature が 1 塩基だけからなる。(長さ 1 のエクソンが実際に登録されている。)

123^124
# その feature が 2 塩基だけからなる。123 番目と 134 番目である。

340..565
# その feature が塩基配列の 340~565 番目にあたる。

<345..500
# その feature が塩基配列の 345~500 番目にあたる。
# ただし、正確な開始位置は 345 よりも前(5' 方向)にあり、正確にはわかっていない。

<1..888
# その feature が塩基配列の 345~500 番目にあたる。
# ただし、正確な開始位置は 1 よりも前にあり、現在のエントリーには登録されていない。

1..888>
# その feature が塩基配列の 1~888 番目にあたる。
# ただし、正確な終了位置は 888 よりも後にあり、正確にはわかっていない。

102.110
# その feature は 102~110 の間にあり、正確な開始位置と終了位置がわかっていない。

join(12..78,134..202)
# その feature は 2 つの部分配列が結合してできたものである。
# (複数のエクソンからなるコーディング領域など)
# 2 つの部分配列はそれぞれ 12~78 と 134~202 番目の部分である。

complement(34..126)
# その feature は 34~125 番目の塩基配列の相補鎖である。
# プログラムで処理するとき、まず 34~126 番目までの塩基配列を切り取り、
# 次にこの配列を逆転させて(126→34)、A→T、C→G、G→C、T→A に変換する。

complement(join(269..451,550..790))
# その feature は 269~451 と 550~790 番目の結合配列、の相補鎖である。

join(complement(118..168),complement(35..89))
# その feature は 118~168 番目の塩基配列の相補鎖と
# 35~89 番目の塩基配列の相補鎖を結合させた塩基配列である。
# プログラムで処理するときは、168→118, 89→35 となるようにする。

J00194.1:100..202
# その feature は登録番号が J00194.1 のエントリーの 100~202 番目の塩基配列である。

join(1..100,J00194.1:100..202)
# 現在エントリーの 1~100 番目の塩基配列と、J00194.1 エントリー中の 100~202 番目
# の塩基配列を結合させた塩基配列である。

location の他に、gene="NF1" や note="putative" などの情報も FEATURE レコードに記載されている。これらの情報は qualifier と呼ばれる。GenBank で定義されている qualifier は非常に多くあり、詳細はDDBJ のサイトを参考にするとわかりやすい。

ORIGIN

ORGIN レコードには塩基配列のデータが記載される。塩基配列は 10 塩基ごとに空白で区切られ、60 塩基ごとに改行される形で記載されている。

GenBank エントリーを取得するインタフェース

NCBI は E-utilities というツール群を提供している。これを利用することで、プログラム内で GenBank のデータを簡単に取得できる。

例えば、Accession Number (登録番号)が X57110.1 となっているエントリーを GenBank 形式でダウンロードする場合は、以下のように URL を発行すればよい。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=X57110.1&rettype=gb

また、FASTA 形式にする場合は次のようにする。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nucleotide&id=X57110.1&rettype=fa