Linux基本コマンド：ファイルやディレクトリのコピー「cp」の使い方

バイオインフォマティクスでは、大量のデータファイルを効率的に管理することが不可欠です。Linuxの基本コマンドの一つである cp は、ファイルやディレクトリのコピーを行うための重要なツールです。この記事では、cp コマンドの基本的な使い方解説し、バイオインフォマティクスでの活用方法について紹介します。

1. cp コマンドの基本

1.1 cp の基本的な使い方

cp コマンドは、ファイルやディレクトリをコピーするために使用されます。基本的な構文は以下の通りです。

cp [オプション] コピー元 コピー先

例えば、data.txt というファイルを backup.txt という名前でコピーする場合：

cp data.txt backup.txt

また、data.txt を /home/user/backup/ ディレクトリにコピーするには：

cp data.txt /home/user/backup/

1.2 複数ファイルのコピー

複数のファイルを一度にコピーすることも可能です。例えば、file1.txt、file2.txt を backup/ フォルダにコピーする場合：

cp file1.txt file2.txt backup/

1.3 ディレクトリのコピー

ディレクトリをコピーする場合は -r (または --recursive) オプションを使用します。

cp -r dir1 dir2

このコマンドは dir1 の内容を dir2 に再帰的にコピーします。

2. cp の応用テクニック

2.1 コピー時の詳細表示 (-v オプション)

コピーの進捗を確認する場合、-v (--verbose) オプションを使用すると便利です。

cp -v data.txt backup.txt

このコマンドを実行すると、以下のような出力が表示されます。

'data.txt' -> 'backup.txt'

2.2 上書きを防ぐ (-n オプション)

誤って重要なファイルを上書きしてしまわないようにするために、-n (--no-clobber) オプションを使います。

cp -n data.txt backup.txt

backup.txt が既に存在する場合、このコマンドはコピーを行いません。

2.3 確認しながら上書き (-i オプション)

上書きの際に確認を求める場合は、-i (--interactive) オプションを使用します。

cp -i data.txt backup.txt

ファイルが既に存在する場合、以下のように確認メッセージが表示されます。

cp: overwrite 'backup.txt'? (y/n)

2.4 タイムスタンプを保持 (-p オプション)

コピー後も元のファイルのタイムスタンプやパーミッションを維持したい場合は -p (--preserve) オプションを使用します。

cp -p data.txt backup.txt

2.5 シンボリックリンクのコピー (-a オプション)

シンボリックリンクを含むディレクトリをそのままコピーしたい場合、-a (--archive) オプションを使います。

cp -a dir1 dir2

このコマンドは dir1 の内容を dir2 に完全にコピーし、ファイルのパーミッションやシンボリックリンクも維持します。

3. バイオインフォマティクスでの活用例

3.1 ゲノムデータのバックアップ

バイオインフォマティクスでは、ゲノム解析やRNAシーケンス解析で扱うデータが大量にあります。誤ってデータを消去しないよう、解析前後でバックアップを取るのが重要です。

cp -r raw_data/ backup/raw_data_$(date +%Y%m%d)/

このコマンドでは、raw_data/ ディレクトリを backup/ にコピーし、バックアップのフォルダ名に日付を付けています。

3.2 複数のFASTQファイルを一括コピー

NGS（次世代シーケンシング）のデータ解析では、FASTQファイルが大量に生成されます。特定の条件に合うファイルを一括でコピーする場合、ワイルドカードを使うと便利です。

cp sample_*.fastq processed_data/

このコマンドは、sample_ で始まるすべての .fastq ファイルを processed_data/ フォルダにコピーします。

3.3 シンボリックリンクを維持したデータ移動

一部のバイオインフォマティクスツールでは、シンボリックリンクを利用してデータ管理を行います。シンボリックリンクを維持したままコピーするには -a オプションを活用します。

cp -a analysis_results/ final_results/

3.4 大規模データセットの並列コピー

大量のデータをコピーする際、GNU Parallel を組み合わせると効率が向上します。

ls *.fastq | parallel -j 4 cp {} backup/

このコマンドでは、最大4つの並列プロセスを使用して .fastq ファイルを backup/ にコピーします。

4. まとめ

cp コマンドは、単純なファイルコピーから大規模なデータ管理まで幅広く活用できます。バイオインフォマティクスでは、データのバックアップ、シーケンスデータの整理、解析結果の保存などで頻繁に使用されます。特に、以下のオプションを覚えておくと便利です。

-r ：ディレクトリを再帰的にコピー
-p ：タイムスタンプやパーミッションを保持
-n ：上書きを防ぐ
-i ：上書き時に確認
-a ：シンボリックリンクを保持してアーカイブコピー
-v ：コピーの詳細を表示

また、GNU Parallel やスクリプトと組み合わせることで、大規模データの処理がより効率的になります！！

Linuxの基本コマンドを活用し、快適なバイオインフォマティクス環境を整えていきましょう〜！