R 使い方 データフレーム・ファクター スクリプトの書き方

バイオインフォ道場、くまぞうです。

Rのデータ構造は、他のプログラミング言語でよくみかけるデータ構造とは少し異なるように感じるかもしれません。しかし、基本的な構造を理解すれば、Rはもっと使いやすいツールになるかもしれません。データフレームとファクター編。

関連記事 R script データ構造まとめ スクリプトの書き方

スポンサーリンク



Rのデータ構造

データフレーム

データフレームは、「名前付けされたベクトルの列」を並べたリストです。外部ファイルを読み込んだ場合、データフレーム形式として利用することが多く、統計やバイオインフォマティクス解析処理でもっとも利用されるデータ構造の1つです。

データフレームの生成は、data.frame関数を使います。名前付けされたベクトルとして列毎にデータを列挙し、並べます。データへのアクセスは、行列同様、行と列のインデックスや名前を使ってアクセスできます。また、列毎のデータについては、$を使った名前で参照出来ます。

データフレームの生成

R > my_data <- 
    data.frame(name=I(c("kumazou1", "kumazou2", "kumazou3")),
               age=c(101, 102, 103),
               color=c("red", "green", "yellow"))
R > my_data
      name age  color
1 kumazou1 101    red
2 kumazou2 102  green
3 kumazou3 103 yellow

R > str(my_data)
'data.frame':	3 obs. of  3 variables:
 $ name :Class 'AsIs'  chr [1:3] "kumazou1" "kumazou2" ...
 $ age  : num  101 102 103
 $ color: Factor w/ 3 levels "green","red",..: 2 1 3

データフレームへのアクセス

R > my_data[3, 2]  # インデックス
[1] 103

R > my_data$name   # $name
[1] "kumazou1" "kumazou2" "kumazou3"

R > my_data[["age"]]  # リスト風アクセス
[1] 101 102 103

R > my_data$name[1]   # 名前とインデックス
[1] "kumazou1"

ファクター

ファクターは、データのカテゴリを記述するためのラベルです。factor関数で生成します。

R > my_factor <- factor(c("PTN-A", "PTN-B", "PTN-C"))
R > my_factor
[1] PTN-A PTN-B PTN-C
Levels: PTN-A PTN-B PTN-C
スポンサーリンク