今回は、データの関連性についてです。
統計処理で求めたいものは、
データに差があるか?? = 有意差検定
データに関連があるか?? の2大パターンがあります。
今回は、最も簡単な直線性を持った関連について解説です。
さっそくまとめです。
- 直線回帰の強さは相関係数【r】でみる
- 相関係数は直線(単)回帰の時のみ
- 回帰曲線のあてはまりの良さは決定係数【r2】でみる
データは以下を使います。
下記書籍の練習用データを少し改編したものです。
散布図で確認 → 近似直線を引く
最も一般的なソフトであるExcelでの処理を考えます。
まず、データが揃ったら、
一度、散布図にして全体像をみることをおススメします。
ポイントは、
全体的にある程度データが一定の傾向がありそうか、どうか。
分布が右肩上がりなのか?? 右肩下がりなのか??
次に、
データ部分で右クリック → 線形近似 を選択すると、
近似直線が引かれます。
R2値(決定係数)を表示します。
およそですが、0.5以上あればこの直線はある程度データにフィットしていると考えられます。
このデータは関連がありそう、と判断できます。
直線の近似曲線を算出し、決定係数などのパラメータを求めることを
直線(単)回帰と言います
ExcelではR2値との表現ですが、
教科書的にはR2乗値です。
Excelで簡単に求められるのはこれだけなので、
もう少し詳しく分析するためには統計ソフトを利用するのが便利です。
相関係数を求める
上記の散布図と線形近似、R2乗値でおよそのデータの傾向はつかめました。
では、いよいよ関連の強さをみる相関係数を求めます。
ここからはソフトJMP(ジャンプ)に切り替えます。
JMPは操作が比較的直感的で使用しやすいソフトと思います。
JMPで求めた相関係数:rは0.8528
相関係数は -1 ≦ r ≦ 1 の間の値をとります。
相関の強さとの考え方以下の通りです。
0.7 ≦ | 強い相関あり |
0.5 ≦ r < 0.7 | 相関あり |
0.3 ≦ r <0.5 | 弱い相関あり |
r < 0.3 | 相関なし |
つまり、このデータは相関が強いデータと言えます。
右肩上がりのデータを、正の相関 (rが正の数)
右肩下がりのデータを、負の相関 (rが負の数)
相関係数は直線関係のときのみ使用することができます。
つまり、前述の線形近似曲線のR2乗値が低い場合は、
信頼性が無くなります
データをもう少し深読みする
以下はJMPで直線回帰分析をした場合に算出される各種パラメータです。
このパラメータから読み取れること以下の通りです。
(あくまでもシミュレーションのデータです。)
R2乗値:0.727 (決定係数 = 寄与率)
HbA1cの変動の72%は空腹時血糖値で説明できる
決定係数注意点
- 決定係数は重回帰分析でも使用できる
- 相関係数の二乗は決定係数になり得るが、逆は成立しない場合もある
誤差の標準偏差(RMSE) (残差の標準偏差)
回帰式でHbA1cの値を予測した場合に±9.419ほどの誤差がでる
回帰式の有意性 (分散分析 p値)
p < .0001 であり、有意水準 0.05より小さいので、求められた回帰式は有意
おすすめ手順まとめ
- 散布図で全体像と傾向の把握
- 相関係数を求める
- 直線(単)回帰分析をして各種パラメータの確認
上記の手順で行うと統計が苦手な僕でもなんとか値を導きだせますので、
是非、参考にしてください。
↓学会発表の資料作成におすすめ著書