相関と散布図 | 統計の活用

バイオインフォ道場、くまぞうです。

バイオインフォマティクスでは、条件の差による結果の差を比較したりします。それぞれの条件から得た結果を変数として比較するときに、まず確認したいのが相関です。そのとき、良く使われるのが散布図や相関係数です。

2つの変数の関係を調べる

相関

2つの変数、x・yがどのような関係をもつかを調べるときに相関に注目してみましょう。

相関 変数の関係
正の相関 xが大きくなると、yも大きくなる
負の相関 xが大きくなると、yは小さくなる
相関なし xの大小について、yの大小が関係ない

スポンサーリンク






相関係数

2つの変数、x・yの関連性を相関係数rとして求めることができます。2組のデータx・yについて、共分散s_{xy}・標準偏差s_xs_yを使って求めます。

 r = \frac{s_{xy}}{s_x s_y}

相関係数はー1〜+1の間の数値をとります。+1に近いほど正の相関・−1に近いほど負の相関が強いことを、0付近ではほとんど相関がないということをあらわします。

相関と散布図

散布図を描く

統計ソフトRを使って散布図を描いてみましょう。plot関数を使います。

plot.r

R> data3 <- 21:40 + rnorm(20)*10  # データ生成
R> data3
 [1] 38.346292 18.642368 21.490126 14.198702 15.149242 40.942237  4.710687
 [8]  8.746762 45.866502 55.366323 16.097957 37.963538 26.423920 50.369451
[15] 48.932782 44.906169 35.552918 32.866395 45.208255 51.866812

R> data4 <- 21:40 + rnorm(20)*10  # データ生成
R> data4
 [1] 29.14759 19.58364 25.23850 25.43055 16.52512 26.60024 36.45873 35.45869
 [9] 19.87917 32.06912 29.21235 40.03388 30.52066 45.40302 43.55916 36.34191
[17] 34.85590 30.55494 44.06312 25.81315

R> plot(data3, data4)  # 散布図

plot




日本経済新聞社とピアソン社が共同開発! GlobalEnglish 日経版

統計ソフトRを使って相関係数を求める

統計ソフトRを使って相関係数を求めてみましょう。cor関数を使います。

cor.r

R> data5 <- 21:40 + rnorm(20)*2  # データ生成
R> data5
 [1] 17.74803 21.86035 27.91460 26.50075 27.34075 25.81821 26.91095 27.58859
 [9] 28.99846 30.99360 35.06596 30.31034 34.22684 31.56443 39.07196 34.68496
[17] 36.58115 41.52191 40.19679 36.13686

R> data6 <- 21:40 + rnorm(20)*2  # データ生成
R> data6
 [1] 19.31832 19.02905 22.47924 23.05284 26.34362 24.18443 29.22835 26.19602
 [9] 28.12428 25.78849 30.36597 30.86952 31.87823 32.53203 35.86017 37.18573
[17] 36.54449 39.87350 39.76320 37.63042

R> cor(data5, data6)  # 相関係数
[1] 0.9295628

cor



あなたの大学教科書・専門書・医学書 高く買います!!全国送料無料「専門書アカデミー」

excelを使って相関係数を求める

excelを使って相関係数を求めてみましょう。correl関数を使います。

correl.xlxs

  1. 2つのデータ群をセルに準備します
  2. 相関係数を求めます
    correl関数に、2つのデータ範囲を指定して相関係数を求めます。
    correl

スポンサーリンク