R tidyverse ：新しい行を追加「add_row」の使い方

バイオインフォマティクスでは、大量のデータを効率的に処理・分析することが求められます。その際、tidyverse の活用はデータ解析のスピードと再現性を向上させる重要な要素となります。
本記事では、dplyr パッケージの add_row() 関数 に焦点を当て、その基本的な使い方から応用例までを解説します。

1. add_row() の基本的な使い方
1. 出力
2. ポイント
2. add_row() の応用例
3. バイオインフォマティクスでの活用例
まとめ
1. ポイント

1. add_row() の基本的な使い方

add_row() は、既存のデータフレームや tibble に 新しい行を追加 するための関数です。
基本的な構文は以下のとおりです。

library(tidyverse)

# データの作成
df <- tibble(
  ID = c(1, 2, 3),
  Name = c("A", "B", "C"),
  Value = c(10, 20, 30)
)

# 新しい行を追加
df <- df %>%
  add_row(ID = 4, Name = "D", Value = 40)

print(df)

出力

# A tibble: 4 × 3
     ID Name  Value
  <dbl> <chr> <dbl>
1     1 A        10
2     2 B        20
3     3 C        30
4     4 D        40

このように、既存のデータフレームに新しい行を簡単に追加 できます。

ポイント

add_row() を使用する際、追加するデータの列名と型が既存のデータフレームと一致していることが重要です。
追加する行の順番は、デフォルトでは最後に追加されます。

2. add_row() の応用例

2.1 空の行を追加

データの前処理や視覚化の際、意図的に空白の行を追加したいことがあります。
add_row() を使って、すべての列を NA にした行を追加できます。

df <- df %>%
  add_row()

print(df)

出力

# A tibble: 5 × 3
     ID Name  Value
  <dbl> <chr> <dbl>
1     1 A        10
2     2 B        20
3     3 C        30
4     4 D        40
5    NA NA      NA

このように、データフレームの最後に NA の行を追加できます。

2.2 指定した位置に行を挿入

add_row() には before 引数を指定することで、新しい行を 特定の位置 に挿入することが可能です。

df <- df %>%
  add_row(ID = 0, Name = "X", Value = 0, .before = 1)

print(df)

出力

# A tibble: 6 × 3
     ID Name  Value
  <dbl> <chr> <dbl>
1     0 X         0
2     1 A        10
3     2 B        20
4     3 C        30
5     4 D        40
6    NA NA      NA

この例では、before = 1 を指定することで、最初の行に新しいデータを追加しました。
実験データの 基準値やコントロールデータを先頭に入れる 場面で便利です。

2.3 複数の行を追加

バイオインフォマティクスのデータ解析では、複数のサンプルを一度に追加するケースもあります。
その場合、add_row() を 複数回適用 するのではなく、bind_rows() を利用すると効率的です。

new_rows <- tibble(
  ID = c(5, 6),
  Name = c("E", "F"),
  Value = c(50, 60)
)

df <- bind_rows(df, new_rows)

print(df)

出力

# A tibble: 8 × 3
     ID Name  Value
  <dbl> <chr> <dbl>
1     0 X         0
2     1 A        10
3     2 B        20
4     3 C        30
5     4 D        40
6    NA NA      NA
7     5 E        50
8     6 F        60

このように、複数の行を まとめて追加 したい場合は bind_rows() が便利です。

3. バイオインフォマティクスでの活用例

3.1 遺伝子発現データの補完

例えば、RNA-seq データの解析中に 特定の遺伝子が欠損しているサンプルに NA を補完 するケースを考えます。

gene_data <- tibble(
  Gene = c("GeneA", "GeneB", "GeneC"),
  Expression = c(12.3, 45.6, 78.9)
)

# GeneD のデータを追加（Expression は不明なので NA）
gene_data <- gene_data %>%
  add_row(Gene = "GeneD", Expression = NA)

print(gene_data)

出力

# A tibble: 4 × 2
  Gene  Expression
  <chr>     <dbl>
1 GeneA      12.3
2 GeneB      45.6
3 GeneC      78.9
4 GeneD      NA

RNA-seq 解析では、発現データの統一性を保つために 欠損遺伝子を明示的に追加 することが重要です。

3.2 解析用のダミーデータ作成

研究の進行中に、統計解析や機械学習モデルのテストのためにダミーデータを追加することがあります。
例えば、ランダムな ID を持つ 5 つのダミーデータを追加する場合：

set.seed(123) # 乱数の固定

dummy_data <- tibble(
  ID = sample(100:999, 5),
  Name = paste0("Dummy", 1:5),
  Value = sample(1:100, 5)
)

df <- bind_rows(df, dummy_data)

print(df)

このように、bind_rows() を活用してダミーデータを効率的に追加できます。