R 使い方組込みデータセット iris データフレーム・ベクトル・リスト

Rのデータ型について学びます。使うデータは、組込みデータセットの「iris」です。irisの構造を眺めたり要約統計量を求めることで、データフレーム・ベクトル型・リスト型について簡単に学びます。

iris データセット
データセットの特徴
1. データセットの次元数・行数・列数の確認
2. データセットの要約統計量
論文・データ解析の支援
関連記事１
関連記事２

iris データセット

iris データセットは、FisherとAndersonによるアヤメの分類データです。３品種について、がく片（Sepal）と花弁（Petal）について長さと幅のデータを集めたものです。

Rを起動して、以下のヘルプコマンドでデータセットの説明を確認します。

R> help(iris)

データフレーム

データフレームとは、Excelの表に似たデータです。実際に統計解析を行うときに、Excelやcsvファイルを読み込むとデータフレームとして格納されます。列名（ラベル）による操作が可能です。各列毎のデータは、それぞれ、数値・文字・因子など異なる型でも構いません。

irisもデータフレームに格納されたデータセットです。

R> class(iris)
[1] "data.frame"

列の定義や格納されているデータを確認します。

R> str(iris)
'data.frame': 150 obs. of 5 variables:
$ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
$ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
$ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
$ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
$ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

データフレームは２次元構造をしています。列や行に、個別にアクセスしたい場合はデータフレーム[行,列]という指定を行います。列を指定してvectorデータを取得したい場合は、iris[,”Sepal.Length”]と指定します。または、iris$Sepal.Length。行を指定してlistデータを取得したい場合は、iris[1,]と指定します。

ベクトル

同一型のデータを順番に並べたデータです。irisでは各列のデータが相当します。

R> iris[,"Sepal.Length"]
[1] 5.1 4.9 4.7 4.6 5.0 5.4 4.6 5.0 4.4 4.9 5.4 4.8 4.8 4.3 5.8 5.7 5.4 5.1 ...

データセットの特徴

データセットの次元数・行数・列数の確認

行数や列数は、dim・nrow・ncol関数で確認できます。

R> dim(iris)
[1] 150 5
R> nrow(iris)
[1] 150
R> ncol(iris)
[1] 5

データセットの要約統計量

summary関数を使うと、データオブジェクトの要約統計量を簡単に求めることができます。

R> summary(iris)
  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50

尚、Species毎に統計量を求めるには、by関数を用いると便利です。

R> by(iris, iris$Species, summary)

列毎のデータで計算する場合は、以下のように指定します。

R> summary(iris$Sepal.Length)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  4.300   5.100   5.800   5.843   6.400   7.900

R> table(iris$Species)
    setosa versicolor  virginica 
        50         50         50

論文・データ解析の支援

個別に直接相談できるのが良いと、たくさんの方にご利用頂いています。

関連記事１

R plotのPDFやPNGへの保存 - PDFなら複数の画像保存も可能

Rのplot (グラフ) は、PDFやPNGファイルとして保存することができます。操作は、通常のグラフの描画と同じです。違うところは、前もって保存先のデバイスをオープンし、描画終了後に明示的にクローズするだけです。PDFなら１つのファイルに...

ratio 1.5倍は、logFCで何？

bioinfomatics では、ratio や logFC を変動の閾値としてよく使います。ratio 2倍・4倍なら、対数表現も１・２と簡単にわかりますが、1.5倍などを閾値とした場合は、対数で何になるか覚えておくのは大変です。これらは...

R 知っていると便利！パッケージ読込みとヘルプ

Rのインストール済みのパッケージについて調べます。スクリプトがちゃんと動かないとき、「何がインストールされているか？」また、「何がインストールされていないか？」がヒントになるときがあります。とにかく早く問題解決したい人はこちら＞＞直接、デー...

R 関数 maxの位置・minの位置を求める

Rで、最大値や最小値を求めるのは簡単ですが、「最大値・最小値の位置は？」という問題を考えてみたいと思います。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談最大値・最小値を求める最大値・最小値を求めるのは簡単です。最大値を求める...

R 使い方集計に便利な関数 aggregate

データフレームを使って集計を行う場合に、使いやすい関数があります。aggregate関数です。データフレームの計算にはapply系の関数がよく使われますが、わかりづらいという方にはオススメの方法です。とにかく早く問題解決したい人はこちら＞＞...

R 使い方データフレーム累積和を求める

データフレームやmatrixで累積和を求める機会ありませんか？「前の行の値」に「現在の行の値」を繰り返し足していくことで求められますが、せっかく「R」を使っているのに、for文やインデックスを使って求めるのも残念な感じがします。そんなときは...

R subset関数データフレームやmatrixからの条件指定による行・列の抽出

R の subset関数は、データフレームやマトリックスから条件にマッチした部分集合を取り出します。条件指定の主なパラメータは、「subset」と「select」です。「subset」では行を抽出するための条件式、「select」では列を抽...

関連記事２

R 4.0 インストール ubuntu

Rのインストール手順について。最近よくつかう「tidyverse」も一緒にインストールします。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談R 4.0 インストール手順事前設定$ sudo apt update -qq$ su...

R 使い方 debug（デバッグ）方法スクリプトの書き方

スクリプトが思ったように動かない、そんなときはバグ（プログラムの間違い）があると言われます。スクリプトを書く場合、そのような間違いを書かないように注意することは当然ですが、完全に防ぐのは難しいことです。スクリプトが思うように動かない場合は、...

R 使い方文字列処理（文字列検索・文字列置換）

統計ソフトＲは、統計処理やグラフの描画でよく用いられます。しかし、色々なことに活用していると、「文字列処理ができると便利だな」と思うことがあります。統計ソフトＲには、文字列処理のための便利な関数が準備されているので、代表的な関数についてまと...

R 使い方 while 繰り返しスクリプトの書き方

Rで「条件を満たす間ずっと繰り返し」を行う場合は、whileを使います。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談while スクリプトの書き方while文は、条件式と一緒に書きます。条件を満たす間、一連の文やブロックをず...

R 使い方 for 繰り返しスクリプトの書き方

Rで単純な繰り返し制御を行う場合は、forを使います。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談for スクリプトの書き方forは繰り返し制御の基本的な構造です。集合には、ベクターやデータフレームなどを使うことができます。...

R switch 使い方スクリプトの書き方

R の switch文は、「複数の条件」とそれに「対応した処理」をまとめて記述できるので、if文よりも簡潔にかけます。R の switchの条件は、文字列で書かれたラベルで判断します。R の switch文の「書き方」と使い方を、サンプルを...

R 使い方 if 条件分岐スクリプトの書き方

R の if文は、フロー制御で最も単純な条件分岐です。条件に「一致したかどうか」という判断で、次に実行するコマンドを変更したりするときに使います。Rのif文の「書き方」、ANDやORを使った複数条件の指定の仕方などを、サンプルを交えてまとめ...

R 使い方関数スクリプトの書き方

Rの使い方として、プログラムの基本構成となる関数の作り方について。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談R 使い方関数を利用したプログラムメッセージの表示や、メッセージの長さを取得する関数を作成します。関数は、「関数...

R 使い方 Hello World スクリプトの書き方

Rでプログラムを書きます。今回は、プログラムの基本「Hello World！」です。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談Hello World プログラムHello Worldプログラムは、プログラムの勉強を開始する...

R 使い方行列（マトリックス）スクリプトの書き方

Rのマトリックスは、他のプログラミング言語と同様、数値や文字などの１種類のデータを２次元配列として保持するデータ構造です。基本的な構造を理解すれば、Ｒはもっと使いやすいツールになります。マトリックスの使い方について。とにかく早く問題解決した...

R 使い方リストスクリプトの書き方

Rのリストは、他のプログラミング言語と同様、各項目にたいして名前をつけたベクトルです。基本的な構造を理解すれば、Ｒはもっと使いやすいツールになります。リストの使い方について。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談関連記...

R 使い方ベクトルスクリプトの書き方

Rのベクトルは、他のプログラミング言語と同様、数値や文字などの１種類のデータを順番に保持するデータ構造です。基本的な構造を理解すれば、Ｒはもっと使いやすいツールになります。Rのベクトルの使い方について。とにかく早く問題解決したい人はこちら＞...

R 使い方データフレーム・ファクタースクリプトの書き方

Rのデータフレーム・ファクターは、他のプログラミング言語のデータ構造とは異なる独特な構造。でも、とてもよく使う構造で、必ず使いこなせるようになりましょう。基本的な構造を理解すれば、Ｒはもっと使いやすいツールになります。Rのデータフレームとフ...

R 使い方データ構造まとめスクリプトの書き方

Rで使うデータ構造をまとめてみます。一気に眺めることで、それぞれの特徴を理解できるかもしれません。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談Ｒのデータ構造ベクトルベクトルは、最も基本的な構造をしています。数値や文字などの１...

Ｒ使い方データ読込みテキスト,csv,エクセル,データベーススクリプトの書き方

「統計ソフト R」にデータを読み込むのは簡単です。タブ区切りのデータやエクセル・DBなどからデータを取り込むことができます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談Rにデータを読み込む「統計ソフト R」にデータを読み込む...