blast 使い方 makeblastdb

バイオインフォ道場、くまぞうです。

blastを実行するには、事前にデータベースを構築する必要があります。データベースの対象となるfastaファイルを準備し、makeblastdbコマンドを実行してデータベースを作ります。

スポンサーリンク



データベースを作成する

makeblastdb 使い方とオプション

makeblastdb -in fastaファイル -dbtype 種別 -out 出力名

主なオプション

  • -in file
    データベースを作成する対象ファイル。fasta形式など。

  • -dbtype nucl or prot
    塩基配列の場合はnucl、アミノ酸配列の場合はprotを指定。

  • -out name
    データベース名。指定しなかった場合は、-inで指定したファイル名になります。各種blastを実行する際に-dbで指定します。

makeblastdb 実行結果

$ makeblastdb -in ./TAIR10_cds_20101214_updated.fasta -dbtype nucl -out mydb

Building a new DB, current time: ...
New DB name:   /PATH.../mydb
New DB title:  TAIR10_cds_20101214_updated.fasta
Sequence type: Nucleotide
...
$ ls
mydb.nhr mydb.nin mydb.nsq        # makeblastdb で生成されたファイル
TAIR10_cds_20101214_updated.fasta # 指定したファイル
$ blastn -query my.fasta -db mydb  # blastn 実行パラメータとして使う

こんなときはどうする?

blastnなどで-dbに何を指定したらよいか?

各種blastの実行には、データベースとして-dbを指定します。正しいデータベース名が指定されないとエラーになります。そのような場合は、makeblastdbで作ったデータベース名を再確認します。データベース名は、-outで指定した名前か、-inで指定したファイル名になります。.nhr.ninは、データベース名.ninになっているので、そのデータベース名を指定しましょう。例えば、-outを指定しなかった場合、少し戸惑いますが、ファイル名.fastaがデータベース名になります。

-out 指定なしの場合

$ makeblastdb -in TAIR10_cds_20101214_updated.fasta -dbtype nucl

Building a new DB, current time: ...
New DB name:   /PATH.../TAIR10_cds_20101214_updated.fasta  # データベース名
New DB title:  TAIR10_cds_20101214_updated.fasta
Sequence type: Nucleotide
...
$ ls
TAIR10_cds_20101214_updated.fasta
TAIR10_cds_20101214_updated.fasta.nhr
TAIR10_cds_20101214_updated.fasta.nin
TAIR10_cds_20101214_updated.fasta.nsq
$ blastn -query my.fasta -db TAIR10_cds_20101214_updated.fasta  # blastn 実行パラメータとして使う

-out 指定ありの場合(mydb)

$ makeblastdb -in TAIR10_cds_20101214_updated.fasta -dbtype nucl -out mydb

Building a new DB, current time: ...
New DB name:   /PATH.../mydb  # データベース名
New DB title:  TAIR10_cds_20101214_updated.fasta
Sequence type: Nucleotide
...
$ ls
mydb.nhr mydb.nin mydb.nsq        # makeblastdb で生成されたファイル
TAIR10_cds_20101214_updated.fasta # 指定したファイル
$ blastn -query my.fasta -db mydb  # blastn 実行パラメータとして使う

makeblastdbのオプション・パラメータ

指定するオプションやパラメータがわからなくなったら、makeblastdbのヘルプを表示しましょう。ヘルプの表示はmakeblastdb -helpです。併せてバージョンも確認しておきましょう。今回は、version 2.3.0+を参考にしています。

$ makeblastdb -version
makeblastdb: 2.3.0+
$ makeblastdb -help
USAGE
  makeblastdb [-h] [-help] [-in input_file] [-input_type type]
    -dbtype molecule_type [-title database_title] [-parse_seqids]
    [-hash_index] [-mask_data mask_data_files] [-mask_id mask_algo_ids]
    [-mask_desc mask_algo_descriptions] [-gi_mask]
    [-gi_mask_name gi_based_mask_names] [-out database_name]
    [-max_file_sz number_of_bytes] [-logfile File_Name] [-taxid TaxID]
    [-taxid_map TaxIDMapFile] [-version]

以下 詳細情報 ...
スポンサーリンク





ピックアップ記事

  1. R plot 重ねる方法3パターン サンプルでわかるRの使い方

    Rでグラフ (plot) を重ねる方法は、「単純な追加」「図に重ねて描画」「濃淡で重なり表現」の3…
  2. tidyverse – distinct関数でデータフレームの重複行を削除 dplyrパッケージ

    tidyverseでデータフレームの重複行の削除を行う場合、dplyrパッケージのdistinct…
  3. awk split サンプルでわかる列の分割とセパレータ(文字・正規表現)の指定方法

    awkのsplit関数は、セパレータを指定して文字列を分割することができます。セパレータには文字や…

人気記事

  1. Excel, その他, 統計

    z-score 計算方法 エクセル(Excel) 編
    統計処理で、大きく変化しているなどの判断基準にも使われる値…
  2. IGV, 解析ツール

    IGV 使い方 インストール〜便利な使い方まで | リファレンス・マッピングデータ・アノテーションを読み込んで表示しよう
    IGV(Integrative Genomics View…
  3. R データ型 - 文字列・ベクター・データフレーム・マトリックス など-, R言語, スクリプト

    R subset関数 データフレームやmatrixからの条件指定による行・列の抽出
    R の subset関数は、データフレームやマトリックスか…

おすすめ記事

  1. bash 応用, シェルスクリプト

    シェル スクリプト ファイル存在チェック・空のファイルチェック
    bashでスクリプトを作成するときに、よく使うのがファイル…
  2. awk, bash 文字列操作, シェルスクリプト

    bash 部分文字列・置換・長さ・連結・分割の文字列処理
    bashのよく使う文字列処理、部分文字列・置換・連結・長さ…
  3. R言語, グラフ

    R 使い方 軸・ラベルの調整(向き・サイズ・色など) グラフの描き方
    Rによるplot(グラフ)の描画は、手軽で大変便利です。た…