Pfam

タンパク質には 1 つないし複数のドメインと呼ばれる機能領域を持つ。このようなドメインはタンパク質の機能を考える上で非常に重要な手掛かりとなる。

Pfam(リンク)データベースには、タンパク質機能を考える上で重要なドメインを数多く登録している。そのクオリティに応じて Pfam-A と Pfam-B の 2 タイプに分けられる。 Pfam-A に分類されているドメインは、UniProtKB などに登録されているデータをもとに決定されたものである。ドメインに関するアノテーションが詳細で、信頼性が高い。これに対して、Pfam-B に分類されているドメインは主に ADDA に登録されているデータをもとに自動的に決定したものであり、アノテーションが不足し、信頼性も低い。

Pfam では入力されたクエリー配列に対し、HMMER と呼ばれる検索プログラムを用いてデータベースに対して検索を行い、高速かつ高精度に結果を出すことができる。 HMMER はタンパク質のホモロジー検索や配列アライメントの作成などに用いれるプログラムである。このプログラムには profile hidden Markov models と呼ばれる確率モデルを実装し、スコアマトリックスに基づくホモロジー検索である BLAST などに比べ、遠縁ホモログをより正確に検索することができる。

例えば、タンパク質のアミノ酸配列を Search Pfam のページの配列入力欄に入力し、検索を行うと、以下のように、入力された配列のどの領域にどのようなドメインが存在するかが表示される。アミノ酸配列は決定されたが、機能がまだわからない場合、Pfam データベースに対して検索を行うことで、配列上に存在するドメインを見つけることができ、機能解析の手助けとなる。

Pfam検索結果の例