R tidyverse：計算後の新しい列を追加する「mutate」の使い方

バイオインフォマティクスでは、大量のデータを効率よく処理するために R の tidyverse を活用することが有用です。特に、dplyr の mutate() 関数は、データフレームに新しい列を追加したり、既存の列を変更したりする際に欠かせません。本記事では、mutate() の基本的な使い方から、バイオインフォマティクスに役立つ応用テクニックまでを解説します。

1. mutate() の基本
1. 基本的な構文
2. mutate() の応用
3. バイオインフォマティクスでの活用例
1. 3.1 遺伝子発現データの正規化
2. 3.2 FASTQ データのクオリティスコア変換
4. まとめ

1. mutate() の基本

mutate() は、データフレームの各行に対して計算を行い、新しい列を追加する、または既存の列を変更するための関数です。まずは基本的な使い方を確認しましょう。

基本的な構文

library(dplyr)

# サンプルデータ
df <- tibble(
  sample_id = c("S1", "S2", "S3"),
  weight_kg = c(70, 60, 80)
)

# 体重をポンド（lbs）に変換
df <- df %>%
  mutate(weight_lbs = weight_kg * 2.20462)

print(df)

出力

# A tibble: 3 × 3
  sample_id weight_kg weight_lbs
  <chr>        <dbl>      <dbl>
1 S1              70      154.3
2 S2              60      132.3
3 S3              80      176.4

このように、mutate() を使うことで 新しい列 weight_lbs を追加できます。

2. mutate() の応用

バイオインフォマティクスのデータ解析では、より複雑なデータ操作が求められます。以下の応用例を見てみましょう。

2.1 条件に応じた列の作成 (case_when())

実験サンプルのグループを条件に応じて分類することがよくあります。その際、case_when() を mutate() と組み合わせると便利です。

df <- df %>%
  mutate(weight_category = case_when(
    weight_kg < 65 ~ "Light",
    weight_kg >= 65 & weight_kg < 75 ~ "Medium",
    weight_kg >= 75 ~ "Heavy"
  ))

print(df)

出力

# A tibble: 3 × 4
  sample_id weight_kg weight_lbs weight_category
  <chr>        <dbl>      <dbl> <chr>          
1 S1              70      154.3 Medium         
2 S2              60      132.3 Light          
3 S3              80      176.4 Heavy

case_when() を使うことで、体重を 「Light」「Medium」「Heavy」 に分類できました。

2.2 複数の新しい列を一度に作成

mutate() は複数の列を同時に追加・変更できます。

df <- df %>%
  mutate(
    height_m = c(1.75, 1.68, 1.80),
    bmi = weight_kg / (height_m^2)
  )

print(df)

出力

# A tibble: 3 × 6
  sample_id weight_kg weight_lbs weight_category height_m   bmi
  <chr>        <dbl>      <dbl> <chr>              <dbl> <dbl>
1 S1              70      154.3 Medium              1.75  22.9
2 S2              60      132.3 Light               1.68  21.3
3 S3              80      176.4 Heavy               1.80  24.7

このように、複数の列を一度に追加 できるのが mutate() の強みです。

2.3 列の変更 (mutate() を if_else() と組み合わせる)

特定の条件に応じて、既存の列の値を変更したい場合、if_else() を使います。

df <- df %>%
  mutate(weight_kg = if_else(weight_kg > 75, weight_kg - 5, weight_kg))

print(df)

このコードでは、体重が 75 kg 以上の人の体重を 5 kg 減らす という処理を行っています。

3. バイオインフォマティクスでの活用例

3.1 遺伝子発現データの正規化

遺伝子発現データを 対数変換（log2） することで、スケールのばらつきを抑えることができます。

gene_expression <- tibble(
  gene = c("GeneA", "GeneB", "GeneC"),
  expression = c(100, 500, 1000)
)

gene_expression <- gene_expression %>%
  mutate(log2_expression = log2(expression))

print(gene_expression)

出力

# A tibble: 3 × 3
  gene  expression log2_expression
  <chr>      <dbl>           <dbl>
1 GeneA        100            6.64
2 GeneB        500            8.97
3 GeneC       1000            9.97

このように、mutate() を使って 遺伝子発現値の log2 変換 を簡単に行えます。

3.2 FASTQ データのクオリティスコア変換

NGS（次世代シーケンス）のクオリティスコアは Phred スケールで表されることが多いですが、線形スケールに変換する場合もあります。

fastq_data <- tibble(
  read_id = c("R1", "R2", "R3"),
  phred_score = c(30, 35, 40)
)

fastq_data <- fastq_data %>%
  mutate(probability_error = 10^(-phred_score / 10))

print(fastq_data)

出力

# A tibble: 3 × 3
  read_id phred_score probability_error
  <chr>        <dbl>              <dbl>
1 R1             30          0.00100   
2 R2             35          0.000316  
3 R3             40          0.000100

この変換を行うことで、クオリティスコアをエラー確率に変換できます。