シェルスクリプト FASTAファイルの分割 fastx_toolkit, sed, コマンドの活用例

バイオインフォマティクスでは、大きなファイルを扱う機会が多いです。小さなファイルに分割すれば、サーバーで分散処理して大幅な時間短縮を行うことが出来るかもしれません。いくつかのツールを組合せてFASTAファイルを小さく分割してみます。

FASTAファイルについて
FASTAファイルの分割
FASTAファイルの分割を自動化する
論文・データ解析の支援
関連記事

FASTAファイルについて

FASTAファイルは、シーケンスデータの記述形式として良く使われるファイルフォーマットです。エントリー（ヘッダー行）と対応するシーケンス文字列の繰り返しで構成されています。ヘッダー行の先頭は>です。続いて、シーケンスを識別するための情報を記述します。これらの間に空白を入れてはいけません。また、塩基配列は、長すぎる場合は適当に改行されます。シーケンスデータの各行は８０文字未満が推奨されています。

FASTAファイルの例（Arabidopsisから一部抜粋）

>AT1G51370.2 | Symbols:  | F-box/...
ATGGTGGGTGGCAAGAAGAAAACCAAGATATGTGACAAAGTGTCACATGAGGAAGATAGG...
TTTGATATCTGAAATACTTTTTCATCTTTCTACCAAGGACTCTGTCAGAACAAGCGCTTT...
TTTGGCAATCGGTTCCTGGATTGGACTTAGACCCCTACGCATCCTCAAATACCAATACAA...
...

FASTAファイルの分割

FASTAファイルはシーケンス文字列が何行も続くので、単純に行数で分割するのは難しいです。分割後のファイルに、ヘッダー行と対応するシーケンス文字列がきちんとおさまるように分割したいと思います。まず、FASTAファイルを「ヘッダーとシーケンス文字列」の１行にします。次に、分割数で行数を計算し、Linuxコマンドのsplitで分割します。最後に、フォーマットを調整を行います。

FASTX-Toolkitの活用

FASTX-Toolkitは、配列情報に関する操作を提供している便利なツールです。今回はFASTAファイルを「ヘッダーとシーケンス文字列」の１行（TAB区切り）にまとめる作業と整形に用います。まずは、１行にまとめるために、fasta_formatterコマンドを使います。オプションは-tです。注意点は、この作業を通じて、ヘッダー行の>が消えることです。

ヘッダーとシーケンス文字列の１行化

$ cat my_fasta.fasta | fasta_formatter -t > my_fasta_line.fasta

$ head my_fasta_line.fasta
AT1G51370.2 | Symbols:  | F-box/...<tab区切り>ATGGTGGGTGGCAAGAAGAA
...
</tab区切り>

Linux splitコマンドの活用

FASTAファイルが「ヘッダーとシーケンス文字列」の１行になったので、Linuxコマンドのsplitを使って行数で分けます。行数で分ける場合のオプションは-lです。デフォルトの設定では、行数で分けられたファイルはxaa, xab, xac….というファイル名で保存されます。オプションで変更することが可能です。

ファイルを行数で分割

$ wc -l < my_fasta_line.fasta
300
$ cat my_fasta_line.fasta | split -l 100  #100行ずつに分割

$ ls
xaa xab xac
$wc -l xa*
100 xaa
100 xab
100 xac

sed の活用

FASTAのヘッダー行の先頭に>を挿入し、ヘッダー行とシーケンス文字列を改行で分けます。今回は、「数字が含まれる行」をヘッダー行と仮定して処理しました。

フォーマットの手直し

cat xaa | sed -e '/[0-9]/s/.*/>&/' -e 's/\t/\n/' > my_fasta1.fasta

FASTX-Toolkitで仕上げる

最後に見た目を整えます。FASTX-Toolkitのfasta_formatterでシーケンス文字列の折り返し長さを指定して、きれいに整えます。オプションは-wです。折り返す文字数とともに指定します。

cat my_fasta1.fasta | fasta_formatter -w 60 > my_fasta1_60.fasta  # シーケンス文字列を60文字で折り返し

FASTAファイルの分割を自動化する

ここまでの処理を、シェルスクリプトで自動化してみました。FASTAファイルと分割数（デフォルト４）を引数にしてファイルを分けます。処理の都合上、オプションの追加・変更を行っています。