トランスクリプトーム解析

High-throughput sequencing または deep sequencing として知られている高速シーケンサーは、DNA のみならず RNA のシーケンシングにも使われるようになり、細胞内で発現するトランスクリプトームの定量を可能にした(RNA-seq)。遺伝子発現解析、選択的スプライシングの調査や新規トランスクリプトの発見など多くの研究で使われるようになった。

複数の異なる状態から取得したサンプル同士を比較し、状態によって発現量が異なる遺伝子(発現変動遺伝子)を検出することも基礎研究として欠かせない。実際のシーケンサーから得られたデータ(シーケンスリード)から発現変動遺伝子遺伝子を検出するまでには長い道のりがある。それには、データのクオリティチェック、マッピング、マップされたリードの計数などの様々な作業を必要する。また、ヒト、マウス、ショウジョウバエやシロイヌナズナなどのモデル生物であればゲノムが(ある程度)解読されているため、公共データベースに公開された全ゲノム配列をリファレンスとして用いればよいが、非モデル生物に関してはリファレンスを自分で作成する必要がある。

文字ではなかなかイメージがつかみづらく、Youtube にアップロードされている動画を参考にするとわかりやすい。

References

  1. Anders S, McCarthy DJ, Chen Y, Okoniewski M, Smyth GK, Huber W, Robinson MD. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nat Protoc. 2013, 8(9):1765-86. PubMed Abstract
  2. Knut R, Ben L, David W, Dirk JE. Alignment of Next-Generation Sequencing Reads. Annu. Rev. Genomics Hum. Genet. 2015, 16:6.1-6.19. ANNUAL REVIEWS
  3. Liu Y, Zhou J, White KP. RNA-seq differential expression studies: more sequence or more replication? Bioinformatics. 2014, 30(3):301-4. PubMed Abstract

以下に、データの入手方法から発現変動遺伝子を同定する手順を示した。各項目のリンクをクリックすると詳細な説明や具体例を見ることができる。

  1. 実験
    RNA-seq の実験に限らず、実験を計画する時に、解析方法やその結果も併せて検討することが重要である。RNA-seq の実験の場合は、これらに加えて biological replicate をいくつにするか、sequencing depth をどれぐらいにするかも検討する必要がある。
  2. リードデータの取得
    シーケンサーから出力される結果は、最終的にはシーケンスリードとクオリティが保存されている FASTQ 形式のファイルに変換することができる。これらのデータは DDBJ や NCBI SRA などの公共データベースに公開される。このページでは公共データベースから FASTQ ファイルのダウンロード方法について述べている。手元に FASTQ ファイルが既にある場合は、この項目は特に必要ない。
  3. FASTQ のクオリティコントロール
    シーケンサーから得られたデータにはアダプター配列やコンタミが含まれている可能性がある。また、シーケンシグ反応のクオリティが非常に悪い部分が含まれる可能性もある。このように後の解析に支障をきたす原因をここで取り除く必要がある。
    FastQC, cutadapt, PRINSEQ, Trimmomatic
  4. de novo アセンブリー
    ヒト、マウス、ショウジョウバエなどの全ゲノムがすでに解読されている生物に関して解析を行う場合は、このステップを省略してもよい。非モデル生物の場合は、自分でその生物のゲノムを作成する必要がある。この作業をアセンブルという。
    Trinity, Velvet, SOAPdenovo, ABySS
  5. マッピング
    クオリティコントロール後のシーケンスリードを生物のゲノム上にマッピングする。
    Bowtie2, TopHat2, RSEM, BWA
  6. 発現量取得
    マッピング結果から、それぞれの遺伝子領域に何個のシーケンスリードがマッピングされたかをカウントする。ここで得られるリードカウントデータは、トランスクリプトの発現量と見なすことができる。
    HTSeq, featureCounts
  7. 発現量解析
    複数のサンプルから得られたカウントデータを比較し、統計モデルに基づいて発現変動遺伝子を同定する。
    edgeR, DESeq2
  8. パスウェイ解析
    Gene ontology 解析やパスウェイ解析などにより、発現変動遺伝子の吟味する。