シーケンスロゴ

シーケンスロゴはマルチプルアライメントの保存度を図示するのに用いられている。シーケンスロゴを描くのに、情報エントロピーを利用する。位置 i の塩基 X が出現する確率を pi(X) とし、位置 i の情報エントロピーを Hi、 C を文字の集合すると、(ただし C は核酸の場合 C = {A,C,G,T}、アミノ酸の場合は C = {A,B,...,W} である。)位置 i のロゴの全体の高さ Ri は次のように求ることができる。。ただし、核酸の場合 |C| = 4、アミノ酸の場合 |C| = 20。

\[ R_{i} = log_{2}(|C|) - (H_{i} + e_{n}) \]

ロゴの中に、複数の文字が書かれています。位置 i にある塩基 X の高さ hi(X) は次のように計算できる。

\[ h_{i}(X) = p_{i}(X) R_{i} \]

en は補正係数、n はマルチプルアライメントの配列数を表す。

\[ e_{n} = \frac{|C| - 1}{2nlog_{e}2} \]

次のようなマルチプルアライメントのシーケンスロゴは以下のようになる。

ACAAACAGT
AAAATGAGT
ATCAACACC
AGCATGCTT
シーケンスロゴの例