Linuxの基本コマンド：テキストファイルをパターンで分割「csplit」の使い方

バイオインフォマティクスの分野では、大規模なデータセットを扱う機会が多く、データの前処理やフィルタリングを効率的に行うことが求められます。Linuxのコマンドラインツールは、このような作業を強力にサポートしてくれます。本記事では、GNU coreutils に含まれる csplit コマンドに焦点を当て、その基本的な使い方から応用までを詳しく解説します。

1. csplit とは？
2. 基本的な使い方
1. 例1: 指定行で分割
2. 例2: 正規表現で分割
3. 応用編
4. バイオインフォマティクスへの応用
5. まとめ

1. csplit とは？

csplit は、テキストファイルを指定したパターンに基づいて分割するコマンドです。バイオインフォマティクスでは、FASTAファイルやSAMファイルのような大きなテキストデータを部分ごとに分割する際に便利です。

基本的な構文は以下の通りです。

csplit [オプション] ファイル名 分割パターン

例えば、ログファイルやスクリプトの出力を処理するときにも活用できます。

2. 基本的な使い方

まずは、シンプルな例を見てみましょう。

例1: 指定行で分割

テキストファイル example.txt を10行目と20行目で分割する場合、以下のようにします。

csplit example.txt 10 20

これにより、以下のような3つのファイルが生成されます：

xx00（1〜9行目）
xx01（10〜19行目）
xx02（20行目以降）

デフォルトでは、xx00, xx01, xx02 のようにファイル名が生成されます。

例2: 正規表現で分割

特定のキーワード（例えば “>” で始まる行）を検出して分割することもできます。例えば、FASTAファイルを各シーケンスごとに分割するには、以下のようにします。

csplit sequences.fasta '/^>/' '{*}'

このコマンドの意味は以下の通りです：

/^>/ : “>” で始まる行を基準に分割
{*} : マッチするすべての部分で分割（無制限）

FASTAファイルの各エントリー（シーケンス）を個別のファイルに分割するのに便利です。

3. 応用編

csplit のより高度な使い方を紹介します。

応用1: 分割したファイルの命名規則を変更

デフォルトでは xx00, xx01 のような名前になりますが、-f（prefix）オプションと -b（suffix format）オプションを使うことで、より分かりやすい名前にできます。

例えば、fasta_ という接頭辞をつけ、000 のゼロ埋め形式で番号を付ける場合：

csplit -f fasta_ -b "%03d.txt" sequences.fasta '/^>/' '{*}'

これにより、

fasta_000.txt
fasta_001.txt
fasta_002.txt といった形式でファイルが作成されます。

応用2: 分割後に空のファイルを削除

時には、分割後に空のファイルが生成されることがあります。例えば、以下のように空ファイルを自動削除することができます。

csplit data.txt '/PATTERN/' '{*}' && find . -size 0 -delete

find . -size 0 -delete で、サイズがゼロのファイルを削除します。

応用3: 分割後にリストを出力

どのようにファイルが分割されたのかを確認するには、以下のようにします。

csplit -k example.txt 10 20 | tee split_list.txt

-k : 途中でエラーが発生してもファイルを削除しない
tee split_list.txt : 分割リストをファイルに保存

これにより、分割されたオフセット情報を split_list.txt に保存できます。

4. バイオインフォマティクスへの応用

csplit は、大きなバイオインフォマティクスデータを効率的に処理するのに役立ちます。以下のようなユースケースで活用できます。

(1) FASTAファイルの分割

ゲノムデータを個別のシーケンスごとに分割することで、並列処理が可能になります。

csplit genome.fasta '/^>/' '{*}'

この後、各シーケンスを個別に解析できます。

(2) SAM/BAMファイルの分割

アライメントデータをヘッダー (@ で始まる行) ごとに分割して、特定の領域を抽出できます。

csplit alignments.sam '/^@/' '{*}'

(3) ログファイルの整理

NGSパイプラインのログを解析する際、特定の時間ごとに分割することで、エラー解析を効率化できます。

csplit pipeline.log '/2025-02-05 12:00:00/' '{*}'

5. まとめ

csplit は、バイオインフォマティクスにおけるデータ処理を効率化する強力なツールです。本記事では、基本的な分割方法から、正規表現を用いた応用、さらにはFASTAやSAMファイルの処理例を紹介しました。

基本: 指定した行数や正規表現でファイルを分割
応用: 分割ファイルの命名規則変更、空ファイルの削除、リストの出力
バイオインフォマティクス: FASTAやSAMの分割、ログの整理

Linuxのコマンドラインツールを活用すれば、バイオデータ解析をより効率的に進められます！！

ぜひ csplit を試して、データ処理のスキルを向上させましょう〜！