データ取得

高速シーケンサーは、サンプル中に含まれている DNA または RNA の断片をシーケンシング(読み取り)し、様々なアルゴリズムを経てその結果は FASTQ 形式のファイルに保存される。高速シーケンサーを利用した de novo アセンブリ、RNA-seq、ChIP-seq などの解析はすべてこのような FASTQ ファイルから開始する。

実験で得られた FASTQ ファイルは論文発表時に DDBJ SRANCBI SRAEMBL-EBI ENA のいずれかの公共データベースに登録される。論文中に記載される accession 番号をデータベースで調べれば、その元データを入手することができる。特に、アメリカなどでは FASTQ ファイルは論文発表前に登録・発表されることもある。

FASTQ ファイルのダウンロード

DDBJ SRA、 NCBI SRA、 EMBL-EBI ENA の 3 つのデータベース間ではデータの同期が行われている。同期が遅れている場合を除き、基本的にどのデータベースを利用してもよい。3 つのデータベースでは FASTQ ファイルの配布方法が異なっている。DDBJ SRA は FASTQ ファイルを bzip2 形式で圧縮し配布している。EMBL-EBI ENA は FASTQ ファイルを gz 形式で圧縮し配布している。また、NCBI SRA では FASTQ ファイルメタ情報などを追加した SRA 形式のファイルを配布している。bzip2 や gz 形式であれば Linux コマンドだけで展開でき、すぐに解析に開始することができる。一方、SRA 形式のファイルでは NCBI toolkit 中の fastq-dump コマンドを利用して、SRA 形式のファイルから FASTQ ファイルを抽出する必要がある。

.bzip2 と .gz 形式の圧縮ファイルの展開方法

DDBJ SRA および EMBL-EBI ENA からダウンロードした FASTQ ファイルはそれぞれ .bzip2 あるいは .gz 形式で圧縮されている。.bzip2 形式を解凍する場合は bzip2 コマンドを利用する。

bzip2 -d SRR032116.fastq.bz2

.gz 形式の場合は gzip コマンドを利用する。

gzip -d SRR032116.fastq.gz

.sra 形式のファイルの展開方法

NCBI SRA はデータを .sra 形式で配布している。.sra 形式のファイルから FASTQ ファイルを抽出するには NCBI SRA toolkit を利用する必要がある。

Linux の場合は apt-get コマンドでインストールできる。

sudo apt-get install sra-toolkit

Mac OS X の場合は brew コマンドでインストールできる。

brew tap homebrew/science
brew install sratoolkit

NCBI SRA toolkit がインストールされると fastq-dump コマンドが利用できるようになる。次のようにして .sra 形式のファイルから FASTQ ファイルを抽出する。

fastq-dump ./SRR064804.sra

リードがペアエンドの場合は --split-files をつける。

fastq-dump --split-files ./SRR391041.sra