置換行列

塩基同士あるいはアミノ酸同士の置換確率を、行列にしたものスコアマトリックス(置換行列)という。

例えば、塩基のスコアマトリックスは次のようにすることができる。各行および各列はそれぞれ A、C、G、T に対応する。例えば、進化の仮定において、単位時間あたり塩基 A から塩基 C へ置換する確率は 1 (= A) 行 2 (= C) 列の s(A, C) = 0.1 となる。

\[ \mathbf{S} = \begin{pmatrix} 0.6 & 0.1 & 0.3 & 0.1 \\ 0.1 & 0.6 & 0.1 & 0.3 \\ 0.3 & 0.1 & 0.6 & 0.1 \\ 0.1 & 0.3 & 0.1 & 0.6 \\ \end{pmatrix} \]

置換スコアは、アライメントから求める。アライメントは必要に応じて、近縁種の塩基配列やアミノ酸配列を用いたり、遠縁種のそれを用いたりする。

置換スコアをアライメントから求めるために、2 つの確率モデルを仮定する。それぞれをランダムモデルと一致モデルという。

ランダムモデル(R)において、文字 a が出現する確率を qa と仮定する。このとき、2 つの文字列 x と y を考えたとき、文字列 x に a が出現する確率は qa であり、文字列 y に文字 b が出現する確率は qb である。

一方、一致モデルにおいて、文字列 x の文字 a の位置に文字列 y の文字 b がアラインメントされる確率を pab と表す。

このとき、文字 a から文字 b に置換する確率は次のように求められる。

\[ \frac{p_{ab}}{q_{a}q_{b}} \]

この確率を対数化したものがスコアである。すなわち、文字 a から文字 b に置換するときのスコア s(a, b) は次のように計算される。

\[s(a,b) = \log \frac{p_{ab}}{q_{a}q_{b}} \]