位置特異的スコアマトリックス

マルチアラインメントの各位置 i に出現する各アミノ酸 j の出現頻度を I × J 行列にしたものが位置特異的スコアマトリックス(position-specific scoring matrix, PSSM)である。PSSM は、重み付き行列やプロファイルなどとも呼ばれている。PSSM はマルチプルアライメントの確率モデルとランダムモデルの比として計算される。

次のマルチプルアラインメントを利用して、プロファイルについて考える。

1 2 3 4 5 6 7 8
A K M M C A S S
A K M C C A S S
A K K C C A G S
D K K C C K G Y
D K K C C M G Y

確率モデル

m をマルチプルアライメントの配列数とし、アラインメントの位置 i に出現するアミノ酸 j の出現回数を n(i, j) とすると、位置 i におけるアミノ酸 j の出現頻度 q(i, j) は次のように計算できる。

\[ q(i,j) = \frac{n(i,j)}{m}\]

例に挙げたアラインメントを用いて具体例を書くと、位置 6 では、アミノ酸 A の出現頻度は q(6,A) = 3/5 = 0.6、アミノ酸 T の出現頻度は q(6,T) = 2/5 = 0.4 と計算できる。また、同じく位置 6 のアミノ酸 D、K、C などの出現頻度は q(6,D) = q(6,K) = q(6,C) = 0/5 = 0 である。

位置アミノ酸の出現頻度
ACDGKMSY
10.60.4
2 1.0
30.60.4
40.80.2
51.0
60.60.20.2
70.60.4
80.60.4

ランダムモデル

ランダムモデルでは、文字とおりに既存のアラインメントを崩して、それらの塩基をランダムに再配置して新しいマルチプルアラインメントを作成する。このランダムに生成されたアラインメントに対して、各アミノ酸の出現頻度 p(j) を求める。例えば、上のマルチプルアラインメント全体では 40 文字があり、そのうちアミノ酸 A が 6 個ある。もし、ランダムにアラインメントを生成するならば、各位置にアミノ酸 A が出現する確率は同じで、 p(1, A) = p(2, A) = ... = 6 / 40 = 0.15 となる。各位置におけるアミノ酸 j の出現頻度は同じであるから、ここでは p(j) = p(1, j) = p(2, j) = ... として p(j) で表す。

アミノ酸ACDGKMSY
出現頻度0.150.2250.050.0750.2250.10.1250.05

位置特異的スコアの計算

上で求めた確率モデルとランダムモデルの各アミノ酸の出現率を用いて、PSSM の各成分を次のように計算する。例えば、位置 i にアミノ酸 j が出現するスコア s(i, j) hあ次のようになる。

\[ s(i,j) = log\frac{q(i,j)}{p(j)} \]

たとえば、位置 1 におけるアミノ酸 D のスコアは s(1,D) = log2(0.4/0.05) = 2.408 である。このような計算を、すべての位置 i およびアミノ酸 j について計算すると、I 行 J 列の行列が完成する。この行列が PSSM である。q(i,j) = 0 のとき、計算出来ないため空白とした。

位置PSSM(i,j)
ACDGKMSY
11.202.41
2 1.34
30.801.20
41.070.60
51.34
61.200.270.60
72.410.96
81.442.41

q(i, j) = 0 のときスコアを計算することができない。そこで、q(i, j) の値が 0 にならないように、以下の方法で q(i, j) を計算する。

\[ q(i,j) = \frac{n(i,j) + 1}{m + 20} \]