DDBJ SRA から FASTQ をダウンロードする方法

シーケンサーから得られる FASTQ ファイルは、一般的に論文発表時あるいはその前に DDBJ SRA、NCBI SRA、EMBL-EBI ENA のいずれかのデータベースに登録される。論文中に記載される accession number を元にこれらのデータベースで調べれば、論文の解析に用いたデータを入手することができる。例えば、Blekhman らの論文では次のようにデータの登録番号を示してある。

SRA番号は論文中に記載されている

論文中に記載されいてるデータの accession number は GSE で始まるものの他に、DRA、SRA や SRR で始まるものもある。accession number の種類にかかわらず、データベースを調べることにより、該当データを見つけることができる。

例えば、上述 Blekhman らの論文中に示してある GSE17274 を調べると、Human, Chimp, Rhesus の 3 種のデータが合計 36 件登録されている。(検索結果)。Human のデータだけを取り上げるて、その SRR 番号を調べると以下のようなる。

  • SRR032116 (Human female 1 rep1)
  • SRR032117 (Human female 1 rep2)
  • SRR032118 (Human female 2 rep1)
  • SRR032119 (Human female 2 rep2)
  • SRR032120 (Human female 3 rep1)
  • SRR032121 (Human female 3 rep2)
  • SRR032122 (Human male 1 rep1)
  • SRR032123 (Human male 1 rep2)
  • SRR032124 (Human male 2 rep1)
  • SRR032125 (Human male 2 rep2)
  • SRR032126 (Human male 3 rep1)
  • SRR032127 (Human male 3 rep1)

これらの SRR の accession number を DDBJ DRA で検索すると、データの概要ページに遷移される。ページの右側に FASTQ と書かれているリンクがあり、それをクリックすることで、ダウンロードページにアクセスできる。

DRAで登録番号を検索する

ダウンロードしようとするデータはサイズが大きく、ファイル数も多いため、ここでは Linux のコマンドを利用してダウンロードする。wget の後にデータの URL を指定する。(wget-c オプションをつけることによって、ダウンロード中に何らかの原因で止まっても、途中からダウンロードを再開することができる。)

wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014818/SRR032116.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014819/SRR032117.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014820/SRR032118.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014821/SRR032119.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014822/SRR032120.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014823/SRR032121.fastq.bz2

wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014824/SRR032122.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014825/SRR032123.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014826/SRR032124.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014827/SRR032125.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014828/SRR032126.fastq.bz2
wget -c ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/fastq/SRA010/SRA010277/SRX014829/SRR032127.fastq.bz2

DDBJ SRA からダウンロードした FASTQ ファイルは bzip2 形式で圧縮されている。解凍するには bzip2 コマンドを利用する。

bzip2 -d ./SRR032116.fastq.bz2
bzip2 -d ./SRR032117.fastq.bz2
bzip2 -d ./SRR032118.fastq.bz2
bzip2 -d ./SRR032119.fastq.bz2
bzip2 -d ./SRR032120.fastq.bz2
bzip2 -d ./SRR032121.fastq.bz2

bzip2 -d ./SRR032122.fastq.bz2
bzip2 -d ./SRR032123.fastq.bz2
bzip2 -d ./SRR032124.fastq.bz2
bzip2 -d ./SRR032125.fastq.bz2
bzip2 -d ./SRR032126.fastq.bz2
bzip2 -d ./SRR032127.fastq.bz2

解凍が正しく行われるとディレクトリ内には SRR03116.fastq ~ SRR032127.fastq ファイルができる。

References

  • DRA Search. Website
  • Blekhman R, Marioni JC, Zumbo P, Stephens M, Gilad Y. Sex-specific and lineage-specific alternative splicing in primates. Genome Res. 2010, 20(2):180-9. PubMed Abstract