RefSeq

RefSeq は核酸・タンパク質のアノテーションデータを保存しているデータベースである。RefSeq に保存されているデータは、冗長性が含まれない。例えば、GenBank では同一の核酸配列が、複数の研究グループによって複数件登録されたりする場合があるが、RefSeq ではただ 1 件だけしか登録されない。このような冗長性の除去は、NCBI のスタッフらによって行われている。

RefSeq Accession Prefix

RefSeq に登録されているデータには 2 文字からなるプレフィックスが付いている。それぞれのプレフィックスは以下のような意味を持つ。

プレフィックス分子注釈
AC_DNA複数個体のデータから集められた完全なゲノム配列
NC_DNA1 個体のデータから集められた完全なゲノム配列
NG_DNA不完全なゲノム。
NT_DNAコンティグ、スキャフォールドなど
NW_DNAコンティグ、スキャフォールドなど
NS_DNA直接分子から単離したサンプルに由来する配列
NZ_DNA不完全なショットガン配列
NM_mRNA
NR_RNA
XM_mRNA予測モデル
XR_RNA予測モデル
AP_タンパク質AC_ に登録されているデータを元に注釈付けられるデータ
NP_タンパク質NM_ または NC_ 関連したデータ
YP_タンパク質
XP_タンパク質XM_ に関連した予測モデル
ZP_タンパク質NZ_ に関連した予測モデル

RefSeq データの分類

RefSeq に登録されているデータは、生物種に応じて菌類、原生生物、、哺乳類などの大きなカテゴリーにで分けられている。具体的には以下のように分けられている。

  • fungi 菌類
  • invertebrate 無脊椎動物
  • microbial 細菌
  • mitochondrion ミトコンドリア
  • plant 植物
  • plasmid プラスミド
  • protozoa 原生生物
  • vertebrate_mammalian 哺乳類
  • vertebrate_other 哺乳類以外の脊椎動物
  • viral ウィルス
  • complete 上記すべてのデータを含む

1 つのデータに複数のカテゴリーに含まれている場合がある。例えば、プラスミドの塩基配列は plasmid、microbial と complete に分類されている場合がある。容量は大きいが、complete をダウンロードすれば、すべてのデータを重複することなくダウンロードできるので、迷ったら complete をダウンロードする。

RefSeq でダウンロードしたデータについて

RefSeq の FTP サイトでダウンロードしたデータは、「complete1.genomic.bna.gz」と名付けられる一般的なファイルと、「completeNZ_AAAU.bna.gz」と名付けられる WGS タイプとがある。

一般的なタイプは次のように命名されている。1 は生物種に応じて fungi、microbial や complete になったりする。 2 はファイルの順番を示し、ほとんどの場合 1, 2, 3, …のように連番で付けられている。3 はデータの分子タイプを示す。gbff はバイナリー形式の核酸データを意味する。4 は圧縮ファイルであることを意味する。

 complete10.gbff.gz
 |-------|-|----|--|
     1    2  3   4

一方、WGS (Whole Genome Shotgun) によって得られたデータは次のように命名されている。1-4 は上に共通であり、5 は WGS プロジェクト名を表す。

completeNZ_AAAU.gbff.gz
|------|-------|----|--|
   1       5     3   4

「complete104.genomic.gbff」の次に「complete107.genomic.gbff」がくるような不連続な場合がある。これは「complete105.genomic.gbff」および「complete106.genomic.gbff」には DNA 情報が含まれていないためである。

拡張子
bnaASN.1バイナリー形式のデータ。核酸およびタンパク質情報をすべて含む。
gbffGenBankフォーマット。核酸のデータ。
gpffGenBankフォーマット。タンパク質のデータ。
fnaFASTAフォーマット。核酸のデータ。
faaFASTAフォーマット。タンパク質のデータ。

gbff と gpff のファイル中に、核酸あるいはアミノ酸配列が記載されているが、 一部のファイルでは記載されていない場合もある。このとき、その gbff、gpff に対応する fna、faa から配列情報を取得する必要がある。