blastx

blastx はクエリー配列が核酸で、それをアミノ酸配列に翻訳してから、タンパク質データベースに対して相同性検索を行うプログラムである。翻訳に関してフレームシフトを考慮して 3 通り、さらにクエリー配列の左から読むのと、右から読むのと 2 通りがあり、合計 6 通りの翻訳が行われる。

blastx を利用する際に、blast 用のデータベースがなければ、先に作成しておく必要がある。

タンパク質のデータベースを作成

ここではマウスのタンパク質をデータベース化する。データは Ensembl (FTP) からダウンロードできる。今回は、Mus_musculus.GRCm38.70.pep.all.fa.gz をダウンロードする。このファイルは gzip で圧縮されているので、展開してからデータベースを作成することにする。

gunzip Mus_musculus.GRCm38.70.pep.all.fa.gz  #展開
makeblastdb -in Mus_musculus.GRCm38.70.pep.all.fa -dbtype prot -out MusProtDB -parse_seqids

完了するとディレクトリに「MusProtDB.phr」、「MusProtDB.pog」、「MusProtDB.psi」、「MusProtDB.pin」、「MusProtDB.psd」、「MusProtDB.psq」のファイルが生成される。これら全部合わせて一つのデータベースを成す。(makeblastdb の使い方

blastx による相同性検索

データベースを作成した上で、次に blastx 検索を行う。調べたい塩基配列を query.nucl.fa の名前で保存する。

>unknown
TCTTATTGACAGTGTCTTTTGCCTTACAGAAGCTTTGCAATTTTATAAATTTGT
CAATTCTCGATCTTAGAGCATAAGTACTGTTCTATTCAGGAATTTTTCCCCTAC
CAATATCTTCAAGGCTTTCCCCCACTTCTCCTCGTTTCACTGTCTCTGGTTTTA
TGTGCAGTTCCTTAATCCACTTAGATTTGACCTTAGTACAAGGAGATAGATCAA
TTCACGTTCTTCTACATGATAACCACCAGTTGGGCCATCATCATTTGTTGAA

この塩基配列をデータベースに対して検索を行う。blastx を実行する際に -db オプションの後にはデータベースの名前を入力する。

blastx -db MusProtDB -query query.nucl.fa -out result.txt

相同性検索の結果

blastx が正しく実行されると、ディレクトリに result.txt が生成される。result.txt の中身に検索結果が保存されている。

BLASTX 2.2.28+


Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
protein database search programs", Nucleic Acids Res. 25:3389-3402.



Database: Mus_musculus.GRCm38.70.pep.all.fa
           50,877 sequences; 22,940,597 total letters



Query= unknown

Length=268
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

lcl|ENSMUSP00000137325  pep:known chromosome:GRCm38:16:3945007:39...  27.7    1.6  
lcl|ENSMUSP00000137628  pep:known chromosome:GRCm38:16:3945610:39...  27.7    1.8  

blastx で利用できるオプション

blastx は以下のようなオプションを利用できる。

オプション意味
-queryクエリー配列のファイル名(入力ファイル)を指定
-query_loc入力ファイルの何文字から何文字目までをクエリー配列とするのかを指定
-dbデータベース名を指定
-outblast 検索結果を保存するファイル名を指定(出力ファイル)
-outfmt出力ファイルのフォーマットを指定。
-evalueE-value の閾値
-word_sizeワードサイズ
-gapopen開始ギャップのペナルティ
-gapextend伸長ギャップのペナルティ
-matrixスコアマトリックスを指定(BLOSUM62やPAM32などを指定)
-thresholdワードスコアの閾値。指定したワードサイズでデータベースに照合するとき、そのスコアが閾値以上の場合にのみ、blast 検索を開始する