発現変動遺伝子の検出

RNA-seq のリードデータをリファレンスゲノムに対してマッピングを行うと、結果としてどの遺伝子にどれぐらいのリードがマップされたかを表すリードカウントデータが得られる。カウントデータをまとめた表が得られることで、2 つあるいはそれ以上のサンプルを比較し、サンプル間で発現量の異なる遺伝子(differentially expressed genes)を検出できるようになる。一般にこの作業は (i) 正規化、(ii) 分布パラメーターの推定および (iii) 検定の 3 ステップで行われている(パラメータの推定と検定を 1 つにまとめられる場合もある)。

正規化

正規化については RPKM、TMM、the median of the ratio や DEGES などの方法が提唱されている。RPKM は遺伝子の長さを考慮した正規化法となっているのに対して、後者の 3 方法は遺伝子の長さを考慮していない正規化法である。サンプル同士での比較では、サンプル G1 の Gene 1 は、サンプル G2 の Gene 2 が同じ長さであるから、考慮する必要がない、というのが後者の考え方である。

発現変動遺伝子の検出

正規化されたリードカウントデータから、統計モデル(分布)を推測し、そのモデルに基づいて比較するサンプル同士の各遺伝子の発現量に差があるかどうかを検定する。こうした発現変動遺伝子の検出法は多く報告されている。比較的に edgeR と DESeq2 に実装されている手法が一般的に使われている。それらのパッケージの使い方をいくつかを右の表に示した。

手法の開発

正規化あるいは検定法の開発にはシミュレーションデータがよく利用される。開発した方法をシミュレーションデータを利用して十分に性能を検証した上で、実データに適用するのが一般的である。そのようなシミュレーションを生成する方法としてはいくつかは知られている。いずれも負の二項分布に従うようにカウントデータを生成している。詳細:シミュレーションデータ

ライブラリー間の関係

RNA-seq を利用した発現量解析では、解析を行う前にデータの特徴を大まかに調べたいことがしばしばある。この際に下記のような方法などが用いられる。

発現変動遺伝子の検出例

いくつかの R / Bionconductor のパッケージを用いて発現変動遺伝子の検出例。様々なパッケージが公開されているが、とりわけ edgeR と DESeq2 がよく使われている。

パッケージ   解析例
edgeR 一般化線形モデルによる解析に対応しているため、二群間や多群間比較のみならず複雑なモデルについても解析することは可能である。リードカウントデータの分布を負の二項分布と仮定してパラメーターの推定を行っている。 二群間比較
二群間二因子比較
対応あり二群間子比較
多群間比較
多群間二因子比較
二群間時系列比較
DESeq 発現変動遺伝子検出用のパッケージとしてよく使われている。biological replicate が存在しない時も、発現量の似ている遺伝子のデータを集めて分散を推定できる。DESeq2 への移行を促している。 二群間比
二群間二因子比較
対応あり二群間子比較
多群間比較
DESeq2 負の二項分布を仮定している。パラメーター推定を行う際に外れ値も考慮に入れている。また、biological replicate が少ないあるいは存在しない時も、発現量の似ている遺伝子のデータを利用しするなどして分布のパラメーターを効率よく推測を可能にしている。 二群間比較
二群間二因子比較
対応あり二群間子比較
多群間比較
多群間二因子比較
MBCluster.Seq RNA-seq のリードカウントデータを遺伝子についてクラスタリングする。時系列データや発現量プロファイルの特徴を把握したいときに利用する。 時系列データ

References

  1. Soneson C, Delorenzi M. A comparison of methods for differential expression analysis of RNA-seq data. BMC Bioinformatics. 2013, 14:91. PubMed Abstract
  2. Anders S, McCarthy DJ, Chen Y, Okoniewski M, Smyth GK, Huber W, Robinson MD. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nat Protoc. 2013, 8(9):1765-86. PubMed Abstract