R tidyverse：特定の列を選択 「select」 の使い方

バイオインフォマティクスのデータ解析では、大量のデータを扱うため、効率的なデータ操作が不可欠です。その中で R の tidyverse は、データの整形・可視化・解析をスムーズに行うための強力なツールです。特に、dplyr パッケージの select() 関数は、データフレームから特定の列を抽出する際に役立ちます。

本記事では、select() の基本的な使い方を解説します。

1. select() の基本
1. 基本的な使い方
2. 列名の選択を簡略化
2. select() の応用
3. まとめ

1. select() の基本

select() は、データフレームから特定の列を選択するために使います。バイオインフォマティクスでは、遺伝子発現データやサンプル情報を含む大規模データセットから、必要な情報だけを抽出する場面が多いため、非常に重要な関数です。

基本的な使い方

まずは、dplyr を読み込み、サンプルデータ mtcars を使って select() の基本的な動作を確認してみましょう。

# dplyr を読み込む
library(dplyr)

# データセットを確認
head(mtcars)

例えば、mtcars から mpg（燃費）と hp（馬力）の列を選択する場合、以下のように記述します。

# 特定の列を選択
mtcars_selected <- mtcars %>% select(mpg, hp)
head(mtcars_selected)

列名の選択を簡略化

列名を指定する際、: を使って連続する列を一括で選択することもできます。

# mpg から hp までの連続した列を選択
mtcars_selected <- mtcars %>% select(mpg:hp)
head(mtcars_selected)

2. select() の応用

バイオインフォマティクスのデータ解析では、特定のパターンに合致する列を抽出したり、不要な列を除外する場面が多くあります。ここでは、select() の便利な応用テクニックを紹介します。

(1) 列名のパターンマッチング

遺伝子発現データでは、列名が gene_1, gene_2, ... のように並ぶことがよくあります。特定のパターンにマッチする列だけを選択したい場合、select() の ヘルパー関数 が役立ちます。

starts_with()：特定のプレフィックスを持つ列を選択

# "d" で始まる列を選択（mtcars には存在しないので例として）
mtcars_selected <- mtcars %>% select(starts_with("d"))
head(mtcars_selected)

バイオインフォマティクスでは、例えば gene_ で始まる遺伝子発現データのみを取得することができます。

gene_data <- data_frame(
  sample_id = c("S1", "S2", "S3"),
  gene_A = c(2.3, 3.1, 4.2),
  gene_B = c(1.5, 2.2, 3.8),
  metadata = c("ctrl", "case", "ctrl")
)

# "gene_" で始まる列のみ選択
selected_genes <- gene_data %>% select(starts_with("gene_"))
print(selected_genes)

ends_with()：特定のサフィックスを持つ列を選択

# "_disp" で終わる列を選択
mtcars_selected <- mtcars %>% select(ends_with("_disp"))
head(mtcars_selected)

contains()：部分一致で列を選択

# "ar" を含む列を選択
mtcars_selected <- mtcars %>% select(contains("ar"))
head(mtcars_selected)

バイオデータ解析では、例えば log2FC や pvalue を含む列のみを抽出する際に有効です。

selected_stats <- gene_data %>% select(contains("pvalue"))

(2) 列の除外

必要な列を選択するのではなく、特定の列を除外したい場合は、- を使います。

# mpg 列を除外
mtcars_excluded <- mtcars %>% select(-mpg)
head(mtcars_excluded)

遺伝子データから metadata のような補助情報を除外し、数値データだけを扱いたい場合にも役立ちます。

# メタデータ列を除外
clean_data <- gene_data %>% select(-metadata)
print(clean_data)

(3) rename() との併用

データセットによっては、列名を変更したい場合もあります。select() の rename() と組み合わせることで、列名の変更が可能です。

# mpg を fuel_efficiency に変更
mtcars_renamed <- mtcars %>% rename(fuel_efficiency = mpg)
head(mtcars_renamed)

バイオインフォマティクスでは、例えば log2FC を log_fold_change に変更すると、可読性が向上します。

renamed_data <- gene_data %>% rename(log_fold_change = gene_A)
print(renamed_data)

3. まとめ

select() は、データフレームから必要な列を選択するための強力な関数です。本記事では、以下の内容を紹介しました。

✅ 基本的な列の選択（select(mpg, hp) など）
✅ ヘルパー関数を活用した選択（starts_with(), ends_with(), contains()）
✅ 列の除外（select(-mpg)）
✅ rename() との併用（列名変更）