PDB

PDB (protein data bank) はタンパク質の立体構造を貯蓄しているデータベースである。主に X 線結晶解析と NMR などによって決められた構造を貯蓄している。構造情報はすべて実験に基づいて解析されているため、バイオインフォマティクスの分野では、機械学習のデータとして利用されている場合が多い。あるいは、タンパク質・リガンド間の相互作用のシミュレーションモデルとしても利用されている。

PDB に登録されているタンパク質のそれぞれに、4文字からなる PDB ID が付けられている。また、そのタンパク質を構成するアミノ酸配列、全原子の位置情報は PDB 形式で記載される。

PDB レコード

PDB 形式のファイルは規則に従って、タンパク質を構成するアミノ酸配列や原子座標が記載される。PDB 形式のファイルは 1 行に 80 文字であり、各行先頭の 10 文字はレコードタイプを示す文字列であり、その行にはどんな情報が書かれているかを表す。(wwPDB のサイトに詳細な説明がある)

実際の PDB 形式の例(2WE1.pdb)。

各レコードタイプの意味は次のようになっている。

レコード説明
HEADER分子の種類、登録名、PDB ID などが記載されている。
TITLEPDB で公開される際のタイトル名。
COMPND分子についての情報。
SOURCEタンパク質の宿主が記載されている。
REMARK 2立体解析の際に使われたもっとも高い分解能が記載されている。
REMARK 200実験に関する情報が記載されます。X 線結晶解析の場合は必ずここに記載される。
REMARK 205繊維回折法の場合の実験情報。
REMARK 210NMR による立体解析の場合の情報。
REMARK 230中性子回折法による解析の場合の情報。
REMARK 240電子線結晶法に関する実験情報。
REMARK 245電子顕微鏡の実験情報。
REMARK 300生物学的に機能する生体分子についての注釈が記載される。
SEQRESポリマー鎖の配列情報が記載されている。
ATOMタンパク質を構成する原子の座標情報が記載されている。ただし、1 番目のアミノ酸から始まるとは限らない。
HETATMリガンドや溶媒などが立体情報に含まれる場合は、ここに記載される。
HELIXαヘリックスを構成するアミノ酸の位置と残基盤号。
SSBOND分子内 S-S 加橋の位置。
ENDPDBファイルの終端を表す。

PDB ファイルに関する疑問

  • PDB の ATOM レコードではアミン酸を 3 文字の略記で記載している。しかし、一部の PDB ファイルでは AASP、BASP や AGLU、BGLU などのように 4 文字表記が見られる。結晶内で原子が振動している場合があり、複数の座標を取ることがある。それらの複数の座標を区別するために A、B などのような接頭語が付けられる。