blastp

blastp は相同性を持つアミノ酸配列を検索するプログラムである。塩基配列の相同性検索プログラムとして blastn がある。ここでは blastp の使い方を紹介する。

データベースを作成

マウスのタンパク質を例にする。マウスのタンパク質データは Ensembl (FTP) からダウンロードできる。この例では Mus_musculus.GRCm38.70.pep.all.fa.gz をダウンロードして、データベースの作成に用いる。ダウンロードしたファイルは gzip で圧縮されているので、展開してから利用する。

gunzip Mus_musculus.GRCm38.70.pep.all.fa.gz  #展開
makeblastdb -in Mus_musculus.GRCm38.70.pep.all.fa -dbtype prot -out MusProtDB -parse_seqids

makeblastdb の実行が終了すると、ディレクトリに「MusProtDB.phr」、「MusProtDB.pog」、「MusProtDB.psi」、「MusProtDB.pin」、「MusProtDB.psd」、「MusProtDB.psq」のファイルが生成される。これらすべて合わせてデータベースとなる。(makeblastdb の使い方

blastp による相同性検索

データベースを作成した上で、次に相同性検索を行う。クエリー配列を query.prot.fa ファイルに保存する。

>unknown
LDLRNVHHSFWNIWTDSEDSDYSAEILDEKKALQVRPRYGLRQRLKVTVDLCIRSCLDEA
QTWFLKWAQERKGSLYFCCTKMKIWTLPERALRQIFHVFDPEHIMELELNTEWTLIELTH
FAPYFGQMRNLRKVFLAPLHKIDFHLPNRTRVTEVKCINKFASQFSKFNCLQHLFMFCVH
FLRSQMNQVLGCLMTPLKTLSITYSLISQRDLDSFACCQSLF

blastp コマンドを実行する。

blastp -db MusProtDB -query query.prot.fa -out result.txt

相同性検索の結果

検索が正しく行われると、検索結果は result.txt ファイルに書きだされる。その中身の一部は以下のようになっている。

BLASTP 2.2.28+


Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs", Nucleic Acids Res. 25:3389-3402.


Reference for composition-based statistics: Alejandro A. Schaffer,
L. Aravind, Thomas L. Madden, Sergei Shavirin, John L. Spouge, Yuri
I. Wolf, Eugene V. Koonin, and Stephen F. Altschul (2001),
"Improving the accuracy of PSI-BLAST protein database searches with
composition-based statistics and other refinements", Nucleic Acids
Res. 29:2994-3005.

Database: Mus_musculus.GRCm38.70.pep.all.fa
           50,877 sequences; 22,940,597 total letters

Query= unknown

Length=222
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value
lcl|ENSMUSP00000129755  pep:known scaffold:GRCm38:JH584299.1:9048...   465    2e-163
lcl|ENSMUSP00000126247  pep:known chromosome:GRCm38:5:95106938:95...   464    5e-163
lcl|ENSMUSP00000126681  pep:known scaffold:GRCm38:JH584299.1:7162...   464    7e-163
lcl|ENSMUSP00000095086  pep:novel chromosome:GRCm38:5:94314469:94...   452    1e-159
lcl|ENSMUSP00000095887  pep:known chromosome:GRCm38:5:94624013:94...   452    2e-159
lcl|ENSMUSP00000106205  pep:novel scaffold:GRCm38:JH584297.1:1974...   451    2e-159
lcl|ENSMUSP00000083215  pep:known chromosome:GRCm38:5:95280462:95...   451    4e-159
lcl|ENSMUSP00000136930  pep:known scaffold:GRCm38:JH584298.1:1796...   451    6e-159
lcl|ENSMUSP00000095096  pep:known chromosome:GRCm38:5:94962962:94...   451    6e-159
lcl|ENSMUSP00000137276  pep:known scaffold:GRCm38:JH584299.1:9219...   450    1e-157
lcl|ENSMUSP00000098573  pep:known chromosome:GRCm38:5:95743822:95...   449    2e-157

blastp で利用できるオプション

オプション意味
-queryクエリー配列のファイル名(入力ファイル)を指定
-query_loc入力ファイルの何文字から何文字目までをクエリー配列とするのかを指定
-dbデータベース名を指定
-outblast 検索結果を保存するファイル名を指定(出力ファイル)
-outfmt出力ファイルのフォーマットを指定。
-evalueE-value の閾値
-word_sizeワードサイズ
-gapopen開始ギャップのペナルティ
-gapextend伸長ギャップのペナルティ
-matrixスコアマトリックスを指定(BLOSUM62やPAM32などを指定)
-thresholdワードスコアの閾値。指定したワードサイズでデータベースに照合するとき、そのスコアが閾値以上の場合にのみ、blast 検索を開始する