マッピング

シーケンシングされたリードをリファレンスゲノムにマッピングするとき、Bowtie、TopHat、RSEM などのプログラムを利用する。リードをマッピングすることによって、どの転写領域に何リードマッピングされたかを計算することができ、間接的にその転写領域の発現量を測ることができる。

ヒト、マウス、シロイヌナズナなどのような全ゲノムが解読されているモデル生物のデータを処理する場合は、インターネットからリファレンスとなるゲノム(全ゲノムデータ)をダウンロードすればよい。一方、全ゲノムが解読されていない非モデル生物などの場合は、de novo アセンブリーにより、リファレンスゲノムを一度作成してから、解析に進む。両者の違いは、リファレンスとなるゲノムをインターネットからダウンロードするか、自作するかである。

モデル生物のリファレンスゲノムは Ensembl, RefSeq, UCSC などのデータベースからダウンロードすることができる。RefSeq ゲノムは NCBI から公開され、様々な研究に広く使われている。また、UCSC ゲノムは UniProt や GenBank mRNA などからデータを集めてアノテーションをつけている。Ensembl ゲノムは UCSC や Vega などデータを集めて自動アノテーションプログラムによってアノテーションを付けを行っている。アノテーション数としては Ensembl ゲノムが一番多い。三者において共通のアノテーションを持つ遺伝子が多く含まれているが、一方にあり他方にないような遺伝子も数多く含まれている。このようなアノテーションの違いが、トランスクリプトームの発現量を取得する際に大きく影響を与えてしまう。マッピング率として、アノテーション数の一番多い Ensembl の方が大きい。ただし、注意したいのはどのアノテーションを使おうと、不完全なアノテーションや完全に間違っているアノテーションが含まれていることを念頭におく必要がある。

References

  • Zhao S, Zhang B. A comprehensive evaluation of ensembl, RefSeq, and UCSC annotations in the context of RNA-seq read mapping and gene quantification. BMC Genomics. 2015, 16:97. PubMed Abstract

モデル生物のマッピング例

プログラム 使用例
Bowtie 比較的に短いリード(〜50bp)をマッピングするときに利用する。ギャップを許容できない。 <シロイヌナズナ single-end>
Bowtie2 短いリード 50-100bp をマッピングするときに利用する。 <ラット single-end>
<ヒト paired-end>
TopHat 100 bp 以上の長いリードをマッピングするときに利用する。リードが 2 つのエクソンにまたがっている場合も対応できる splice-aware aligner である。 <ショウジョウバエ paired-end>
TopHat2 100 bp 以上の長いリードをマッピングするときに利用する。リードが 2 つのエクソンにまたがっている場合も対応できる splice-aware aligner である。 <シロイヌナズナ single-end>
RSEM 1 本のリードが複数箇所のマップ候補があった場合 EM アルゴリズムによって、1 本のリードをこれらの複数箇所に配分する。そのため、マッピング結果には小数値が存在する。
BWA ギャップを許容してマッピングを行うことができる。1000 bp のような長いリードにも対応可能。塩基の挿入や欠損に強い。 <ヒト single-end>

非モデル生物のマッピング例

非モデル生物の場合はリファレンスゲノムを自作する必要がある。de novo アセンブリーを行うプログラムとして Trinity などのアセンブラーが一般に知られている。アセンブラーを利用してリファレンスを作成したあとに、RSEM や TopHat などを利用してマッピングを行う。