相関と散布図 | 統計の活用

バイオインフォ道場、くまぞうです。

バイオインフォマティクスでは、条件の差による結果の差を比較したりします。それぞれの条件から得た結果を変数として比較するときに、まず確認したいのが相関です。そのとき、良く使われるのが散布図や相関係数です。

2つの変数の関係を調べる

スポンサーリンク



相関

2つの変数、x・yがどのような関係をもつかを調べるときに相関に注目してみましょう。

相関 変数の関係
正の相関 xが大きくなると、yも大きくなる
負の相関 xが大きくなると、yは小さくなる
相関なし xの大小について、yの大小が関係ない

相関係数

2つの変数、x・yの関連性を相関係数rとして求めることができます。2組のデータx・yについて、共分散$$s_{xy}$$・標準偏差$$s_x$$・$$s_y$$を使って求めます。

$$ r = \frac{s_{xy}}{s_x s_y} $$

相関係数はー1〜+1の間の数値をとります。+1に近いほど正の相関・−1に近いほど負の相関が強いことを、0付近ではほとんど相関がないということをあらわします。

相関と散布図

散布図を描く

統計ソフトRを使って散布図を描いてみましょう。plot関数を使います。

plot.r

R> data3 <- 21:40 + rnorm(20)*10  # データ生成
R> data3
 [1] 38.346292 18.642368 21.490126 14.198702 15.149242 40.942237  4.710687
 [8]  8.746762 45.866502 55.366323 16.097957 37.963538 26.423920 50.369451
[15] 48.932782 44.906169 35.552918 32.866395 45.208255 51.866812

R> data4 <- 21:40 + rnorm(20)*10  # データ生成
R> data4
 [1] 29.14759 19.58364 25.23850 25.43055 16.52512 26.60024 36.45873 35.45869
 [9] 19.87917 32.06912 29.21235 40.03388 30.52066 45.40302 43.55916 36.34191
[17] 34.85590 30.55494 44.06312 25.81315

R> plot(data3, data4)  # 散布図

plot

統計ソフトRを使って相関係数を求める

統計ソフトRを使って相関係数を求めてみましょう。cor関数を使います。

cor.r

R> data5 <- 21:40 + rnorm(20)*2  # データ生成
R> data5
 [1] 17.74803 21.86035 27.91460 26.50075 27.34075 25.81821 26.91095 27.58859
 [9] 28.99846 30.99360 35.06596 30.31034 34.22684 31.56443 39.07196 34.68496
[17] 36.58115 41.52191 40.19679 36.13686

R> data6 <- 21:40 + rnorm(20)*2  # データ生成
R> data6
 [1] 19.31832 19.02905 22.47924 23.05284 26.34362 24.18443 29.22835 26.19602
 [9] 28.12428 25.78849 30.36597 30.86952 31.87823 32.53203 35.86017 37.18573
[17] 36.54449 39.87350 39.76320 37.63042

R> cor(data5, data6)  # 相関係数
[1] 0.9295628

cor

excelを使って相関係数を求める

excelを使って相関係数を求めてみましょう。correl関数を使います。

correl.xlxs

  1. 2つのデータ群をセルに準備します
  2. 相関係数を求めます
    correl関数に、2つのデータ範囲を指定して相関係数を求めます。
    correl

スポンサーリンク




ランキング


おすすめ記事

ピックアップ記事

  1. tidyverse – distinct関数でデータフレームの重複行を削除 dplyrパッケージ

    tidyverseでデータフレームの重複行の削除を行う場合、dplyrパッケージのdistinct…
  2. R subset関数 データフレームやmatrixからの条件指定による行・列の抽出

    R の subset関数は、データフレームやマトリックスから条件にマッチした部分集合を取り出します…

人気記事

  1. R データ型 - 文字列・ベクター・データフレーム・マトリックス など-, R言語, スクリプト

    R subset関数 データフレームやmatrixからの条件指定による行・列の抽出
    R の subset関数は、データフレームやマトリックスか…
  2. Excel, その他, 統計

    z-score 計算方法 エクセル(Excel) 編
    統計処理で、大きく変化しているなどの判断基準にも使われる値…
  3. IGV, 解析ツール

    IGV 使い方 インストール〜便利な使い方まで | リファレンス・マッピングデータ・アノテーションを読み込んで表示しよう
    IGV(Integrative Genomics View…

おすすめ記事

  1. awk, bash 文字列操作, シェルスクリプト

    bash 部分文字列・置換・長さ・連結・分割の文字列処理
    bashのよく使う文字列処理、部分文字列・置換・連結・長さ…
  2. bash 応用, シェルスクリプト

    シェル スクリプト ファイル存在チェック・空のファイルチェック
    bashでスクリプトを作成するときに、よく使うのがファイル…
  3. R言語, グラフ

    R 使い方 軸・ラベルの調整(向き・サイズ・色など) グラフの描き方
    Rによるplot(グラフ)の描画は、手軽で大変便利です。た…