Bowtie

Bowtie は Burrows-Wheeler アルゴリズムを利用して、ショートリードを速くリファレンスゲノム上にマップすることを可能にしている。比較的にショートリードのマッピングを得意とする。Bowtie を利用してマッピングを行うとき、リファレンスゲノムのインデックスを作成する必要がある。

Bowtie のインストール方法

Bowtie のソースコードをおよびコンパイル済みのプログラムは SourceForge でダウンロードできる。コンパイル済みのプログラムをダウンロードした場合、展開するだけですぐに利用できる。

Mac ユーザーの場合は brew で Bowtie を簡単にインストールすることができる。

brew install bowtie

インデックス作成

Bowtie を利用してマッピングを行うとき、まずリファレンスゲノムのインデックスを作成する必要がある。例えば、Ensembl からマウスの全ゲノムをダウンロードし、手持ちの RNA-seq リードデータをこのマウスのゲノムにマッピングを行うとき、bowtie-build コマンドを利用して Mus_musculus.GRCm38.68.fa のインデックスを作成する。一つ目の引数にリファレンスゲノムのデータ(FASTA 形式)を指定し、2 つ目の引数にインデックスの名前を指定する。以下の例では、インデックスが MUSIDX と命名される。

bowtie-build -f Mus_musculus.GRCm38.68.fa MUSIDX

このコマンドを実行すると、ディレクトリ中に MUSIDX.1.ebwt、MUSIDX.2.ebwt、MUSIDX.3.ebwt、MUSIDX.4.ebwt、MUSIDX.rev.1.ebwt、MUSIDX.rev.2.ebwt の 6 つのファイルが生成される。これら合わせて Mus_musculus.GRCm38.68.fa のインデックスとなる。

マッピング

次に、手持ちの FASTQ 形式のリードデータをリファレンスゲノム上にマッピングする。このとき bowtie コマンドを利用する。bowtie コマンドの後にオプション、インデックス名、入力 FASTQ データ、出力ファイル名の順で指定する。次の例では、SRR012345.fq をリファレンスゲノム上にマッピングし、その結果を SRR012345.sam に保存している。

bowtie -S --best -p 4 MUSIDX SRR012345.fq SRR012345.sam

ペアエンドの場合は、リードは一般的に 2 つのファイルに保存され、SRR012345_1.fq と SRR012345_2.fq のように命名される。マッピングを行うとき -1-2 オプションを利用してそれぞれの FASTQ ファイルを指定する。

bowtie -S -p 4 MUSIDX -1 SRR012345_1.fq -2 SRR012345_2.fq SRR012345.sam

ミスマッチを 2 つまで許容し、1 つのリードがリファレンスゲノム上の 1 ヶ所のみにマッピングされるように指定する(uniquely map)。

bowtie -S -m 1 -v 2 GRCm38 SRR012345.fq SRR012345.sam

最初の 10 残基でミスマッチを 2 つ許容するように指定する。

bowtie -S -l 25 -n 2 GRCm38 SRR012345.fq SRR012345.sam

References

  • Langmead B, Trapnell C, Pop M, Salzberg SL. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biol. 2009, 10(3):R25. PubMed Abstract