bioinfomatics の解析では、サイズの大きなファイルを扱います。
fastqファイルは圧縮(fastq.gz)して使うことが多いので、圧縮したままで使える「ファイルの結合」や「ファイルの分割」のしかたを覚えておくと便利です。
fastq.gz ファイルを圧縮したまま結合・分割する
圧縮ファイル(.gz)の結合
ファイル(fastq)を個別に圧縮しました。
$ cat data1.fastq @data01 ATGC + AAAA @data02 TACG + BBBB
$ cat data2.fastq.gz @data03 CGTA + CCCC @data04 GCAT + DDDD
$ gzip data1.fastq -c > data1.fastq.gz $ gzip data2.fastq -c > data2.fastq.gz
個別に圧縮したファイルをそのまま結合しました。
$ cat data1.fastq.gz data2.fastq.gz > data.fastq.gz
圧縮ファイルのまま結合したファイルを展開しました。予想通りの結果になりました。
$ gzip -dc data.fastq.gz @data01 ATGC + AAAA @data02 TACG + BBBB @data03 CGTA + CCCC @data04 GCAT + DDDD
圧縮ファイル(.gz)の分割
圧縮ファイルを分割しました。
$ split -n 3 data.fastq.gz xaa xab xac
結合のときと同じように、そのまま結合しました。
$ cat xaa xab xac > splited.fastq.gz
圧縮ファイルのまま結合したファイルを展開しました。予想通りの結果になりました。
$ gzip -dc splited.fastq.gz @data01 ATGC + AAAA @data02 TACG + BBBB @data03 CGTA + CCCC @data04 GCAT + DDDD
参考図書など
よく使う基本的なコマンドが、簡単な例と一緒に解説されているので、わかりやすく・使いやすい本だと思います。