blastn

blastn は相同性を持つ核酸配列を検索するプログラムである。タンパク質の相同性検索プログラムとして blastp がある。ここでは blastn の利用方法を紹介する。

データベースを作成

検索対象となるデータベースを作成する。ここではマウスのゲノムデータベースを作成する。その元ファイルは Ensembl (FTP) からダウンロードできる。この例では、Mus_musculus.GRCm38.70.dna.toplevel.fa.gz をダウンロードして利用する。ファイルは gzip で圧縮されているため、展開してから利用する。

gunzip Mus_musculus.GRCm38.70.dna.toplevel.fa.gz  #展開
makeblastdb -in Mus_musculus.GRCm38.70.dna.toplevel.fa -dbtype nucl -out MusNuclDB -parse_seqids

実行が終了すると、ディレクトリに「MusNuclDB.nhr」、「MusNuclDB.nog」、「MusNuclDB.nsi」、「MusNuclDB.nin」、「MusNuclDB.nsd」、「MusNuclDB.nsq」のファイルが生成されます。これら全部合わせてデータベースとなります。(makeblastdb の使い方

blastn による相同性検索

データベースを作成した上で、次に相同性検索を行う。クエリー配列を query.nucl.fa の名前のファイルに保存する。

>unknown
TCTTATTGACAGTGTCTTTTGCCTTACAGAAGCTTTGCAATTTTATAAATTTGT
CAATTCTCGATCTTAGAGCATAAGTACTGTTCTATTCAGGAATTTTTCCCCTAC
CAATATCTTCAAGGCTTTCCCCCACTTCTCCTCGTTTCACTGTCTCTGGTTTTA
TGTGCAGTTCCTTAATCCACTTAGATTTGACCTTAGTACAAGGAGATAGATCAA
TTCACGTTCTTCTACATGATAACCACCAGTTGGGCCATCATCATTTGTTGAA

blastn を利用して相同性検索を行う。-db の後ろに、作成したデータベースの名前を指定する。

blastn -db MusNuclDB -query query.nucl.fa -out result.txt

相同性検索の結果

検索が正しく行われるとディレクトリに result.txt が生成される。検索結果がこのファイルに保存されている。その一部が以下のようになっている。

BLASTN 2.2.28+


Reference: Zheng Zhang, Scott Schwartz, Lukas Wagner, and Webb
Miller (2000), "A greedy algorithm for aligning DNA sequences", J
Comput Biol 2000; 7(1-2):203-14.



Database: Mus_musculus.GRCm38.70.dna.toplevel.fa
           75 sequences; 3,783,309,620 total letters



Query= unknown

Length=268
                                                                      Score     E
Sequences producing significant alignments:                          (Bits)  Value

lcl|1  dna:chromosome chromosome:GRCm38:1:1:195471971:1 REF            385    1e-104
lcl|13  dna:chromosome chromosome:GRCm38:13:1:120421639:1 REF          300    4e-79 
lcl|6  dna:chromosome chromosome:GRCm38:6:1:149736546:1 REF            296    5e-78 
lcl|15  dna:chromosome chromosome:GRCm38:15:1:104043685:1 REF          296    5e-78 
lcl|5  dna:chromosome chromosome:GRCm38:5:1:151834684:1 REF            294    2e-77 
lcl|2  dna:chromosome chromosome:GRCm38:2:1:182113224:1 REF            294    2e-77 

blastn で利用できるオプション

オプション意味
-queryクエリー配列のファイル名(入力ファイル)を指定
-query_loc入力ファイルの何文字から何文字目までをクエリー配列とするのかを指定
-dbデータベース名を指定
-outblast 検索結果を保存するファイル名を指定(出力ファイル)
-outfmt出力ファイルのフォーマットを指定。
-evalueE-value の閾値
-word_sizeワードサイズ
-gapopen開始ギャップのペナルティ
-gapextend伸長ギャップのペナルティ
-matrixスコアマトリックスを指定(BLOSUM62やPAM32などを指定)
-thresholdワードスコアの閾値。指定したワードサイズでデータベースに照合するとき、そのスコアが閾値以上の場合にのみ、blast 検索を開始する