バイオインフォマティクスでは、条件の差による結果の差を比較したりします。それぞれの条件から得た結果を変数として比較するときに、まず確認したいのが相関です。そのとき、良く使われるのが散布図や相関係数です。
2つの変数の関係を調べる
スポンサーリンク
相関
2つの変数、x・yがどのような関係をもつかを調べるときに相関に注目してみましょう。
| 相関 | 変数の関係 |
|---|---|
| 正の相関 | xが大きくなると、yも大きくなる |
| 負の相関 | xが大きくなると、yは小さくなる |
| 相関なし | xの大小について、yの大小が関係ない |
相関係数
2つの変数、x・yの関連性を相関係数rとして求めることができます。
2組のデータx・yについて、共分散・標準偏差
$$s_{xy}$$
$$s_x , s_y$$
を使って求めます。
$$ r = \frac{s_{xy}}{s_x s_y} $$
相関係数はー1〜+1の間の数値をとります。+1に近いほど正の相関・−1に近いほど負の相関が強いことを、0付近ではほとんど相関がないということをあらわします。
相関と散布図
散布図を描く
統計ソフトRを使って散布図を描いてみましょう。plot関数を使います。
plot.r
R> data3 <- 21:40 + rnorm(20)*10 # データ生成 R> data3 [1] 38.346292 18.642368 21.490126 14.198702 15.149242 40.942237 4.710687 [8] 8.746762 45.866502 55.366323 16.097957 37.963538 26.423920 50.369451 [15] 48.932782 44.906169 35.552918 32.866395 45.208255 51.866812 R> data4 <- 21:40 + rnorm(20)*10 # データ生成 R> data4 [1] 29.14759 19.58364 25.23850 25.43055 16.52512 26.60024 36.45873 35.45869 [9] 19.87917 32.06912 29.21235 40.03388 30.52066 45.40302 43.55916 36.34191 [17] 34.85590 30.55494 44.06312 25.81315 R> plot(data3, data4) # 散布図

統計ソフトRを使って相関係数を求める
統計ソフトRを使って相関係数を求めてみましょう。cor関数を使います。
cor.r
R> data5 <- 21:40 + rnorm(20)*2 # データ生成 R> data5 [1] 17.74803 21.86035 27.91460 26.50075 27.34075 25.81821 26.91095 27.58859 [9] 28.99846 30.99360 35.06596 30.31034 34.22684 31.56443 39.07196 34.68496 [17] 36.58115 41.52191 40.19679 36.13686 R> data6 <- 21:40 + rnorm(20)*2 # データ生成 R> data6 [1] 19.31832 19.02905 22.47924 23.05284 26.34362 24.18443 29.22835 26.19602 [9] 28.12428 25.78849 30.36597 30.86952 31.87823 32.53203 35.86017 37.18573 [17] 36.54449 39.87350 39.76320 37.63042 R> cor(data5, data6) # 相関係数 [1] 0.9295628

excelを使って相関係数を求める
excelを使って相関係数を求めてみましょう。correl関数を使います。
correl.xlxs
スポンサーリンク
![バイオインフォ 道場 [bioinfo-Dojo]](https://bioinfo-dojo.net/wp-content/uploads/2016/03/some_object_luca-bravo-alS7ewQ41M8-unsplash.jpg)



