makeblastdb

blast 検索をする際、先に blast 用のデータベースを作成しておく必要がある。blast 用のデータベースを作成するコマンドは makeblastdb である。

blast 用データベースの作成方法

blast 検索時にデータベースとして利用したい塩基配列またはアミノ酸配列を用意し、makeblastdb でデータベースを作成する。例えば、シロイヌナズナの blast 検索用データベースを作成する際に、まず全ゲノムデータを arabidopsis.org のサイトから TAIR9_chr_all.fas をダウンロードしてくる。次に、ダウンロードしたデータのあるディレクトリに移動し、makeblastdb コマンドを実行する。

makeblastdb -in TAIR9_chr_all.fas -out TAIR9DB -dbtype nucl -parse_seqids

コマンドが実行されると、ディレクトリには「TAIR9DB.nin」、「TAIR9DB.nsd」、「TAIR9DB.nsq」、「TAIR9DB.nhr」、「TAIR9DB.nog」、「TAIR9DB.nsi」などができます。(タンパク質の場合は「nin」などが「pin」になります。)

上記のコマンドの「-out」に指定した文字列がデータベース名となります。blast 検索するときは、次のようにデータベースを指定します。

blastn -db TAIR9DB -query query.fa

makeblastdb のオプション

makeblastdb にはいくつかのオプションが用意されている。特に注意すべきオプションとしては-dbtype-in-out である。-dbtype はデータベースの種類を指定するオプションで、核酸ならば -dbtype nucl と指定し、タンパク質ならば -dbtype prot と指定する。また、-in はデータベースを作成する元ファイルの名前、-out は作成したデータベースの名前を指定する。その他のオプションは makeblastdb -help を実行すれば、オプション名とともに説明が表示される。

makeblastdb -help
オプション説明
-dbtype核酸なら nucl を指定。タンパク質なら prot を指定。
-inデータベースを作る元となるファイル
-input_typeデータベースを作る元なるファイルのフォーマット(デフォルトは fasta )。他に asn1_bin、asn1_txt、blastdb が指定できます。
-titleデータベースのタイトル(デフォルトは入力ファイル名)
-parse_seqids入力ファイルが fasta ファイルの時、配列の ID のインデックスを作成
-hash_index配列のハッシュをインデックス化
-mask_data
-gi_mask
-gi_mask_name
-outデータベース名(デフォルトは入力ファイル名)
-max_file_szblast データベースの上限サイズ