Bowtie2(ヒト paired-end)

Bowtie2を利用したマッピングの流れ

Bowtie2 はやや長めのリードのマッピングを得意とする。Bowtie2 を利用したマッピングでは、左の図のように、インデックスの作成とマッピングの 2 ステップからなる。

このページで用いるサンプルデータの登録番号は ERR030882 である。これはヒトの脳組織のサンプルである。予め該当 FASTQ をダウンロードして利用できるようにする。なお、このデータはペアーエンドであるため、ERR030882_1.fastq、ERR030882_2.fastq の 2 つのファイルがダウンロードできるはず。必要ならばクオリティのフィルタリングを行い、低クオリティのリードを除去する。このページではこの作業を省く。

 

リファレンスゲノムの取得

ヒトの全ゲノムデータは公共データベース Ensembl でダウンローできる。しかし、全ゲノムをダウンロードしても、どの領域が遺伝子で、どの領域がそうではないかのアノテーション情報が含まれていない。そのため、(マッピングには必要はないが、)全ゲノムの他にアノテーションデータも合わせてダウンロードすると便利である。Ensembl のダウンロードページにアクセスすると以下の様な項目が見られる。

BWAによるマッピング

Ensembl のダウンロードページにて、上図の赤い枠で囲まれたファイルをダウンロードする。

該当リンクをクリックした後に、染色体別のデータなど様々なタイプのデータが表示される。ここでダウンロードするのは全ゲノムデータであるので、以下のファイル名のファイルをダウンロードする。

  • Homo_sapiens.GRCh38.dna.toplevel.fa.gz

また、同時にアノテーションファイル(GTF)もダウンロードしておく。

  • Homo_sapiens.GRCh38.gtf.gz

ダウンロードしたファイルは gzip で圧縮されているため、ターミナルから以下のコマンドを実行して解凍する。

gunzip Homo_sapiens.GRCh38.dna.toplevel.fa.gz
gunzip Homo_sapiens.GRCh38.gtf.gz

展開後、ディレクトリの中には Homo_sapiens.GRCh38.dna.toplevel.fa と Homo_sapiens.GRCh38.gtf の 2 つのファイルができる。

インデックスを作成する

リファレンスとなる全ゲノムのインデックスを作成する。インデックスの作成は bowtie2-build コマンドを利用する。-f の後に、ダウンロードした全ゲノムのファイル場所を指定し、その後にインデックスの名前を付ける。インデックス名前は任意で構わないが、ここでは HUMAN_INDEX とした。インデックスの作成は非常に時間がかかる。パソコンの性能によっては数時間以上及ぶ場合がある。

bowtie2-build -f Homo_sapiens.GRCh38.dna.toplevel.fa HUMAN_INDEX

インデックスを作成し終えると、ディレクトリには 6 つのファイルが生成される。これら合わせて Bowtie2 のインデックスとなる。(菌類などの小さいゲノムの場合は、拡張が .bt2l ではなく .bt2 となる。)

  • HUMAN_INDEX.1.bt2l
  • HUMAN_INDEX.2.bt2l
  • HUMAN_INDEX.3.bt2l
  • HUMAN_INDEX.4.bt2l
  • HUMAN_INDEX.rev.1.bt2l
  • HUMAN_INDEX.rev.2.bt2l

Bowtie2 によるマッピング

Bowtie2 によるマッピングはリードとリファレンスのインデックスの 2 種類のデータを必要とする。

マッピングは以下のように bowtie2 コマンドを利用する。 サンプルデータは 2 つであるから、bowtie2 コマンドをそれぞれに対して実行する必要がある。

このサンプルデータはペアエンドリードであるから、-1 には _1.fq、-2 には _2.fq の FASTQ ファイルを指定する。また、出力フォーマットを SAM 形式で出力する場合は -S を付ける。-q -N 1 -p 8 などは Bowtie2 のオプションを参考

bowtie2 -q -N 1 -p 8 -x HUMAN_INDEX -1 ERR030882_1.fastq -2 ERR030882_2.fastq -S ERR030882.sam

マッピング正しく実行されると、ERR030882.sam ファイルが生成され、マッピング結果が保存される。また、マッピングのログは、画面上に次のように出力される。

64532779 reads; of these:
  64532779 (100.00%) were paired; of these:
    14820059 (22.97%) aligned concordantly 0 times
    33153420 (51.37%) aligned concordantly exactly 1 time
    16559300 (25.66%) aligned concordantly >1 times
    ----
    14820059 pairs aligned concordantly 0 times; of these:
      6762758 (45.63%) aligned discordantly 1 time
    ----
    8057301 pairs aligned 0 times concordantly or discordantly; of these:
      16114602 mates make up the pairs; of these:
        7151866 (44.38%) aligned 0 times
        5495911 (34.11%) aligned exactly 1 time
        3466825 (21.51%) aligned >1 times
94.46% overall alignment rate

ログをみると、マッピングされたリードは aligned concordantly と aligned discordantly の 2 種類が存在する。全リードのうち、14820059 個のリードが concordantly にマッピングされなかった。concordantly にマッピングされなかったリードのうち、6762758 個のリードが discordantly にマッピングされている。また、concordantly にも discordantly にもマッピングされなかったリードは 14820059 - 6762758 = 8057301 個である。

concordantly にマッピングされたリードというのは、ペアエンドが正しく対応し、両者の距離は理論値内にあるようなリードである。これに対して、discordantly にマッピングされたリードは、ペアエンドはマッピングされているものの、互いに対応しておらず、または両者が理論値を超えるように大きく離れている場合のリードを表す。

References

  • Langmead B, Salzberg SL. Fast gapped-read alignment with Bowtie 2. Nat Methods. 2012, 9(4):357-9. PubMed Abstract