samtools 使い方 faidx Fastaから部分配列

バイオインフォ道場、くまぞうです。

塩基配列の変異に注目したSNP解析や配列パターンに注目した解析などでは、部分配列を抜き出して詳しく調べる場合があります。今回は、開始位置-終了位置を指定してFASTAファイルから注目する塩基配列の一部(部分配列)を取り出します。開始・終了の位置情報がわかっている場合は、Samtoolsを使うと簡単です。

スポンサーリンク



FASTAファイルから部分配列抜き出し

Samtools faidx コマンド

Samtoolsはショートリードのアライメント後の処理に用いられるソフトウェアです。「faidx」コマンドは、リファレンス配列から部分配列を抜き出す場合に使うコマンドです。使い方が簡単で、同様の作業について汎用的に使える方法なので、オススメです。

  1. リファレンスにインデックスを付与する
    samtools faidx ref.fasta
  2. FASTAのエントリー名と位置を指定して部分配列を切り出す
    samtools faidx ref.fasta chr1:12345-12445
    >chr1:12345-12445
    ATGA.... 

補足

エントリー名を間違えると部分配列が取得できないので、注意して下さい。ゲノムの場合、良くあるケースが「chr」の番号が「chr01」だったり「chr1」だったりする場合の混乱です。

また、複数の部分配列を取得する場合は、取り出しの命令(samtools faidx ref.fasta chr1:12345-12445)をシェルスクリプトとして書き出しておくと、使いやすいと思います。

スポンサーリンク





ピックアップ記事

  1. R subset関数 データフレームやmatrixからの条件指定による行・列の抽出

    R の subset関数は、データフレームやマトリックスから条件にマッチした部分集合を取り出します…
  2. R 使い方 グラフの色 自作のカラーパレットとデフォルトのカラーパレット

    グラフを描画する際、色の組み合わせを1つ1つ考えるのは面倒ですよね。Rには、あらかじめ色の組み合わ…
  3. awk for 繰り返し処理 簡単なサンプルでわかる インクリメント・デクリメント、変わった繰り返し

    awkのfor文は、カウンタを目印にして処理を繰り返したいときによく使われます。for文では、カウ…

人気記事

  1. IGV, 解析ツール

    IGV 使い方 インストール〜便利な使い方まで | リファレンス・マッピングデータ・アノテーションを読み込んで表示しよう
    IGV(Integrative Genomics View…
  2. R データ型 - 文字列・ベクター・データフレーム・マトリックス など-, R言語, スクリプト

    R subset関数 データフレームやmatrixからの条件指定による行・列の抽出
    R の subset関数は、データフレームやマトリックスか…
  3. Excel, その他, 統計

    z-score 計算方法 エクセル(Excel) 編
    統計処理で、大きく変化しているなどの判断基準にも使われる値…

おすすめ記事

  1. awk, bash 文字列操作, シェルスクリプト

    bash 部分文字列・置換・長さ・連結・分割の文字列処理
    bashのよく使う文字列処理、部分文字列・置換・連結・長さ…
  2. bash 応用, シェルスクリプト

    シェル スクリプト ファイル存在チェック・空のファイルチェック
    bashでスクリプトを作成するときに、よく使うのがファイル…
  3. R言語, グラフ

    R 使い方 軸・ラベルの調整(向き・サイズ・色など) グラフの描き方
    Rによるplot(グラフ)の描画は、手軽で大変便利です。た…