R tidyverse：列の順序を変更 「relocate」 の使い方

バイオインフォマティクスでは、大量のデータを整理し、解析しやすい形に整えることが不可欠です。特に R の tidyverse は、データの前処理や可視化をスムーズに行うための強力なツールです。その中でも dplyr は、データフレームの操作を簡潔に記述できるパッケージとして広く使われています。

今回は、 dplyr の relocate() 関数 に焦点を当て、基本的な使い方から応用例までを解説します。

1. dplyr の relocate とは？
1. 1.1 基本構文
  1. 例：データフレームの作成
2. 基本的な relocate の使い方
3. 応用編：複数列の移動と条件を活用
1. 3.1 複数の列を一括移動
2. 3.2 特定の条件に基づいて移動
4. まとめ
1. 4.1 relocate() を使うメリット
2. 4.2 今後の活用

1. dplyr の relocate とは？

relocate() は データフレームの列の順序を変更 するための関数です。データの見やすさを向上させたり、解析の前処理を行う際に便利な機能です。

通常、select() を使って列を並び替えることも可能ですが、relocate() は特定の列を指定した位置に移動できる ため、より柔軟な操作ができます。

1.1 基本構文

library(dplyr)

df %>%
  relocate(移動したい列, .before = 基準列)  # 指定した列を基準列の前に移動

または

df %>%
  relocate(移動したい列, .after = 基準列)  # 指定した列を基準列の後に移動

例：データフレームの作成

まず、架空のバイオインフォマティクス関連データを用意します。

library(tidyverse)

df <- tibble(
  Sample_ID = c("S1", "S2", "S3"),
  Gene = c("BRCA1", "TP53", "EGFR"),
  Expression = c(5.2, 3.8, 7.1),
  Group = c("Tumor", "Normal", "Tumor")
)

print(df)

# A tibble: 3 × 4
  Sample_ID Gene  Expression Group 
  <chr>     <chr>      <dbl> <chr> 
1 S1        BRCA1        5.2 Tumor 
2 S2        TP53         3.8 Normal
3 S3        EGFR         7.1 Tumor

2. 基本的な relocate の使い方

2.1 指定した列を先頭に移動

たとえば、Expression 列をデータフレームの先頭に移動したい場合、次のように書けます。

df %>%
  relocate(Expression)

# A tibble: 3 × 4
  Expression Sample_ID Gene  Group 
      <dbl> <chr>     <chr> <chr> 
1      5.2 S1        BRCA1 Tumor 
2      3.8 S2        TP53  Normal
3      7.1 S3        EGFR  Tumor

このように、Expression 列がデータフレームの先頭に移動しました。

2.2 指定した列を特定の列の前に移動

例えば、Gene 列の前に Expression を移動したい場合は以下のように記述します。

df %>%
  relocate(Expression, .before = Gene)

# A tibble: 3 × 4
  Sample_ID Expression Gene  Group 
  <chr>         <dbl> <chr> <chr> 
1 S1              5.2 BRCA1 Tumor 
2 S2              3.8 TP53  Normal
3 S3              7.1 EGFR  Tumor

Expression が Gene の前に移動しました。

2.3 指定した列を特定の列の後に移動

今度は Sample_ID の後に Expression を移動してみます。

df %>%
  relocate(Expression, .after = Sample_ID)

# A tibble: 3 × 4
  Sample_ID Expression Gene  Group 
  <chr>         <dbl> <chr> <chr> 
1 S1              5.2 BRCA1 Tumor 
2 S2              3.8 TP53  Normal
3 S3              7.1 EGFR  Tumor

Expression が Sample_ID の後に移動しました。

3. 応用編：複数列の移動と条件を活用

3.1 複数の列を一括移動

複数の列をまとめて移動することも可能です。例えば、Gene と Expression をまとめて Sample_ID の後に移動する場合：

df %>%
  relocate(Gene, Expression, .after = Sample_ID)

# A tibble: 3 × 4
  Sample_ID Gene  Expression Group 
  <chr>     <chr>      <dbl> <chr> 
1 S1        BRCA1        5.2 Tumor 
2 S2        TP53         3.8 Normal
3 S3        EGFR         7.1 Tumor

このように、Gene と Expression の順番を保ちつつ移動できます。

3.2 特定の条件に基づいて移動

例えば、数値型の列をすべて先頭に移動し、文字列型の列を後ろに持ってくる場合：

df %>%
  relocate(where(is.numeric))

# A tibble: 3 × 4
  Expression Sample_ID Gene  Group 
      <dbl> <chr>     <chr> <chr> 
1      5.2 S1        BRCA1 Tumor 
2      3.8 S2        TP53  Normal
3      7.1 S3        EGFR  Tumor

この方法を使えば、数値データを常に前に持ってきて、解析しやすいデータ構造にできます。

4. まとめ

4.1 relocate() を使うメリット

特定の列を柔軟に移動できる（select() より簡潔）
見やすいデータフレームを作成できる
特定の条件（データ型など）で移動できる
複数列をまとめて移動できる

バイオインフォマティクスのデータは、遺伝子名や発現量、サンプルID、グループ情報など、多くの情報を含みます。relocate() を活用することで、データの整理や解析の準備を効率化できるでしょう。

4.2 今後の活用

この relocate() の使い方をマスターしたら、他の dplyr 関数（mutate(), filter(), group_by() など）と組み合わせて、より高度なデータ解析を試してみてください。

バイオインフォマティクスのデータ処理がスムーズになること間違いなしです！