samtools 使い方 faidx Fastaから部分配列

バイオインフォ道場、くまぞうです。

塩基配列の変異に注目したSNP解析や配列パターンに注目した解析などでは、部分配列を抜き出して詳しく調べる場合があります。今回は、開始位置-終了位置を指定してFASTAファイルから注目する塩基配列の一部(部分配列)を取り出します。開始・終了の位置情報がわかっている場合は、Samtoolsを使うと簡単です。

スポンサーリンク



FASTAファイルから部分配列抜き出し

Samtools faidx コマンド

Samtoolsはショートリードのアライメント後の処理に用いられるソフトウェアです。「faidx」コマンドは、リファレンス配列から部分配列を抜き出す場合に使うコマンドです。使い方が簡単で、同様の作業について汎用的に使える方法なので、オススメです。

  1. リファレンスにインデックスを付与する
    samtools faidx ref.fasta
  2. FASTAのエントリー名と位置を指定して部分配列を切り出す
    samtools faidx ref.fasta chr1:12345-12445
    >chr1:12345-12445
    ATGA.... 

補足

エントリー名を間違えると部分配列が取得できないので、注意して下さい。ゲノムの場合、良くあるケースが「chr」の番号が「chr01」だったり「chr1」だったりする場合の混乱です。

また、複数の部分配列を取得する場合は、取り出しの命令(samtools faidx ref.fasta chr1:12345-12445)をシェルスクリプトとして書き出しておくと、使いやすいと思います。

スポンサーリンク