makeblastdb | BLAST ホモロジー検索用のデータベースの作成方法

blast 検索をする際、先に blast 用のデータベースを作成しておく必要がある。blast 用のデータベースを作成するコマンドは makeblastdb である。

blast 用データベースの作成方法

blast 検索時にデータベースとして利用したい塩基配列またはアミノ酸配列を用意し、makeblastdb でデータベースを作成する。例えば、シロイヌナズナの blast 検索用データベースを作成する際に、まず全ゲノムデータを arabidopsis.org のサイトから TAIR9_chr_all.fas をダウンロードしてくる。次に、ダウンロードしたデータのあるディレクトリに移動し、makeblastdb コマンドを実行する。

makeblastdb -in TAIR9_chr_all.fas -out TAIR9DB -dbtype nucl -parse_seqids

コマンドが実行されると、ディレクトリには「TAIR9DB.nin」、「TAIR9DB.nsd」、「TAIR9DB.nsq」、「TAIR9DB.nhr」、「TAIR9DB.nog」、「TAIR9DB.nsi」などのファイルが生成される。（タンパク質の場合は「nin」などが「pin」となる。）

上記のコマンドの「-out」に指定した文字列がデータベース名となる。blast 検索するときは、次のようにデータベースを指定する。

blastn -db TAIR9DB -query query.fa

makeblastdb のオプション

makeblastdb にはいくつかのオプションが用意されている。特に注意すべきオプションとしては-dbtype、-in、-out である。-dbtype はデータベースの種類を指定するオプションで、核酸ならば -dbtype nucl と指定し、タンパク質ならば -dbtype prot と指定する。また、-in はデータベースを作成する元ファイルの名前、-out は作成したデータベースの名前を指定する。その他のオプションは makeblastdb -help を実行すれば、オプション名とともに説明が表示される。

makeblastdb -help

オプション	説明
`-dbtype`	核酸なら nucl を指定。タンパク質なら prot を指定。
`-in`	データベースを作る元となるファイル
`-input_type`	データベースを作る元なるファイルのフォーマット（デフォルトは fasta ）。他に asn1_bin、asn1_txt、blastdb が指定できる。
`-title`	データベースのタイトル（デフォルトは入力ファイル名）
`-parse_seqids`	入力ファイルが fasta ファイルの時、配列の ID のインデックスを作成
`-hash_index`	配列のハッシュをインデックス化
`-mask_data`
`-gi_mask`
`-gi_mask_name`
`-out`	データベース名（デフォルトは入力ファイル名）
`-max_file_sz`	blast データベースの上限サイズ