ローカルアライメントを利用して構造予測

ホモロジー検索を利用すると、様々な相同性の高い配列が検索される。クエリー配列と検索結果が全体に渡って相同性が高いものや、部分的に相同性が高いものなど様々に存在する。このなかで、複数の局所的な相同性の高い部分を取り出して、モデリングのテンプレートとして利用することもできる。

例として、以下のアミノ酸配列を用いる。

MWKAVMNAWNGTESQSKNVSNIQSYSFEDMKRIVGKHDPNVVLVDVREPSEYSIVHIPAS
INVPYRSHPDAFALDPLEFEKQIGIPKPDSAKELIFYCASGKRGGEAQKVASSHGYSNTS
LYPGSMNDWVSHGGDKLDL

DELTA-BLAST などのホモロジー検索を利用すると、多くの相同性の高いテンプレートが見つかる。ここでは部分的に相同性のある 4JGT と 3G5J の配列をテンプレートとして、モデリングする例を示す。

検索結果が以下のようになっている。

ホモロジー検索結果

検索結果を参照にしてターゲット配列(クエリー配列)と 4JGT、3G5J とのマルチプルアライメントを作成する。検索結果のアライメントには X が含まれるが、これはアミノ酸ではないので削除して、代わりにギャップ(-)を入れておく。例えば、以下のようにテンプレートができる。これを align.pir の名前で保存する。

また、4JGT の検索結果ではアライメント部分が 214~289 となっているが、MODELLER に与えるアライメントは以下のように「204:A279:A」と記述している。これは検索結果 214 番目のヒスチジンは PDB ファイルの ATOM 行で 204 番目と書いてあるため、PDB ファイル上のアミノ酸番号に変更する。3G5J についても同様に変更を行う。

>P1;TARGET
sequence:TARGET:1:::::::
MWKAVMNAWNGTESQSKNVSNIQSYSFEDMKRIVGKHDPNVVLVDVREPSEYSIVHIPAS
INVPYRSHPDAFALD--PLEFEKQIGIPKPDSAKELIFYCASGKRGGEAQKVASSHGYSN
TSLYPGSMNDWVSHGGDKLDL*
>P1;4JGT
structureX:4JGT:204:A:279:A::::
-------------------------------------------------------HIPGT
VNIPFTDFLSQEGLEKSPEEIRHLFQEKKVDLSKPLVAT-GSGVTACHVALGAYLCGKPD
VPIYDGSWVEW----------*
>P1;3G5J
structureX:3G5J:15:A:38:A::::
----------------------------------------VIFVDVRTEGEYEEDHILNA
IN-P--------------------------------------------------------
---------------------*

次にテンプレートとなる配列の立体構造情報をダウンロードする。両ファイルともに PDB サイトからダウンロードする。ダウンロードしたファイルをそのまま利用すると、エラーが起こるため、以下のように修正を行う。 分からない場合は、こちらで修正後のファイルをダウンロードしてください( 4JGT.pdb, 3G5J.pdb )。

  • 4JGT ファイルを開き、A 鎖の 248 番目の分子のデータをすべて削除する。(HETATM 行から始まっている)
  • 3G5J ファイルを開き、A 鎖の 37 番目の分子のデータをすべて削除する。(HETATM 行から始まっている)

最後に MODELLER を実行するためのスクリプトを作成して、 script.py の名前で保存する。

from modeller import *
from modeller.automodel import *
 
log.verbose()
env = environ()
 
env.io.atom_files_directory = ['.', './pdb']


a = automodel(env,
              alnfile  = 'align.pir',
              knowns   = ['4JGT', '3G5J'],
              sequence = 'TARGET')
a.starting_model= 1
a.ending_model  = 1
a.make()

上述のファイル(align.pir、script.py、修正済みの 4JGT.pdb、修正済みの 3G5J.pdb)をすべて同じディレクトリに保存し、MODELLER を実行する。

mod9.13 script.py

正解構造(3D1P)と予測構造を重ねあわせた場合は以下のようになる。テンプレートが存在しない N 端末の構造がまったく予測されてないことがわかる。水色は予測構造、ブロンズ色は正解構造を示す。

予測構造と正解構造の重ねあわせ