gzip 圧縮したテキストファイル 結合と分割

bioinfomatics の解析では、サイズの大きなファイルを扱います。

fastqファイルは圧縮(fastq.gz)して使うことが多いので、圧縮したままで使える「ファイルの結合」や「ファイルの分割」のしかたを覚えておくと便利です。

Linuxコマンドブック ビギナーズ 第5版

fastq.gz ファイルを圧縮したまま結合・分割する

圧縮ファイル(.gz)の結合

ファイル(fastq)を個別に圧縮しました。

$ cat data1.fastq
@data01
ATGC
+
AAAA
@data02
TACG
+
BBBB
$ cat data2.fastq.gz
@data03
CGTA
+
CCCC
@data04
GCAT
+
DDDD
$ gzip data1.fastq -c > data1.fastq.gz
$ gzip data2.fastq -c > data2.fastq.gz

個別に圧縮したファイルをそのまま結合しました。

$ cat data1.fastq.gz data2.fastq.gz > data.fastq.gz

圧縮ファイルのまま結合したファイルを展開しました。予想通りの結果になりました。

$ gzip -dc data.fastq.gz 
 @data01
 ATGC
 +
 AAAA
 @data02
 TACG
 +
 BBBB
 @data03
 CGTA
 +
 CCCC
 @data04
 GCAT
 +
 DDDD

圧縮ファイル(.gz)の分割

圧縮ファイルを分割しました。

$ split -n 3 data.fastq.gz
xaa
xab
xac

結合のときと同じように、そのまま結合しました。

$ cat xaa xab xac > splited.fastq.gz

圧縮ファイルのまま結合したファイルを展開しました。予想通りの結果になりました。

$ gzip -dc splited.fastq.gz 
@data01
ATGC
+
AAAA
@data02
TACG
+
BBBB
@data03
CGTA
+
CCCC
@data04
GCAT
+
DDDD

参考図書など

よく使う基本的なコマンドが、簡単な例と一緒に解説されているので、わかりやすく・使いやすい本だと思います。

Linuxコマンドブック ビギナーズ 第5版

タイトルとURLをコピーしました