Ensembl

Ensembl データベースでは、ゲノム配列に対してスプライスバリアントやタンパク質レベルのアノテーションを付け、より詳細なゲノム情報を提供している。Ensembl のデータは主に UniProt、RefSeq などのデータに基いて作成される。

RefSeq では mRNA をもとにゲノムをアノテーションしているが、Ensembl では、RefSeq の情報を利用するとともに、アノテーションプログラムも利用して、非翻訳領域(UTR)なども予測し、アノテーションを行っている。

Ensembl は主に脊椎動物のゲノムアノテーションを提供しているが、植物や原生生物などのアノテーションは Ensembl Plants、Ensembl Metazoa などで提供している。

Ensembl FTP

Ensembl データベースのデータは FTP サイトを通してすべてダウンロードすることができる。データは FTP サイト の /pub/release-xx/ ディレクトリの下に保存されている。GenBank 形式と FASTA 形式の 2 種類で提供されている。

GenBank 形式のデータ

GenBank 形式のデータは FTP サイトの「/pub/release-*/genbank/種名/」ディレクトリに置かれている。ゲノム配列とそのアノテーション情報などがファイル中に書かれている。ただし、アノテーションが付けられていない塩基配列は含まれない。

Ensembl が提供している GenBank 形式のファイルは、1 ファイルに 1000 件のエントリーが書かれている。

FASTA 形式のデータ

FASTA 形式のデータは FTP サイトの「/pub/release-*/fasta/種名/」ディレクトリに置かれている。全ゲノム配列が FASTA ファイルに書かれている。

Ensemble の FTP で提供されいてる FASTA ファイルの名前は次のような規則で命名されている。

 Homo_sapiens.GRCh37.65.dna_rm.chromosome.HG995_PATCH.fa.gz	
 |-----------|------|--|------|----------|-----------|--|--|
       1        2    3    4        5           6       7  8
  1. 生物種
  2. ビルト名
  3. リリース番号
  4. シーケンスの分子タイプ。dna はアセンブリーした配列のこと。dna_rm は RepeatMasker ツールにより繰り返し配列が消去された配列であり、消去された塩基はかわりに N が挿入される。
  5. chromosome は染色体 DNA を表し、nonchromosomal はミトコンドリアや葉緑体などの非染色体DNAを表す。
  6. 染色体の名前あるいは染色体の番号
  7. fasta 形式
  8. 圧縮形式(拡張子)