【医療統計の基本のキホン(2)】データの種類と平均値比較の大分類

臨床研究ではデータの収集し、それをまとめていく作業がほとんどです。

ただし、データといっていっても色々の種類があります。

身長、体重、血圧、血液データ、画像所見、などなど。

それぞれに特色があります。

また、一番多く行われるであろう、平均値の比較を行う統計処理も

扱うデータの種類やその量によって使い分けなければいけません。

今回の記事ではそのような疑問を解決します。

 

統計 グラフ

スポンサーリンク

データの種類 (測定尺度分類)

データの種類は”尺度”という分類で4種類存在します。

以下に、ざっくりとまとめます。

では、少しずつ付け加えていきます。

データの尺度

名義尺度

基本的にはon-offの判断

二択で優劣がない比較が一番シンプルな形 ex) 男 or 女

数値ではない形式で表現される ex) “+” or “-”

 

順序尺度

段階的に表現される

ex) がんのステージング ”Ⅰ,Ⅱ,Ⅲ,Ⅳ” 

順序もしくは優劣の判断が入る

 

間隔尺度

数値で連続的に表される

もちろん、小数点以下やマイナスもあり

定量的データはこれに属しやすい

 

比例尺度

基本は間隔尺度と似ていて、数値で連続的

数値ならびに比にスポットが当たる尺度

マイナス側は考えない

 

間隔尺度と比例尺度の区別は難しいですし、

統計処理上は無理に区別する必要はありません。

 

実際に統計ソフトのJMPでは、

間隔尺度と比例尺度は区別することなく”連続尺度”として扱われます。

 

下記は後輩に”先輩、間隔尺度と比例尺度の違いってなんすか??”の説明用に。

 

間隔尺度 代表例 温度

20℃は10℃の2倍の数値だが、二倍暑いわけではない。

0℃と比べて-10℃はどのくらい寒いか数値で言えますか??

比例尺度 代表例 距離

2kmは1kmの2倍で、実際、二倍遠い。

距離は絶対”0”以下にならない。

 

こんな、感じでズバッといってやりましょう。

 

平均値比較の大分類

さて、データを収集した平均値を比較して、

それを比べる、というステップは臨床研究における鉄板中の鉄板の作業です。

平均値を比較するときは、

データの種類や量によって使うべき統計テクニックが異なります。

まず基本として、以下のどちらの種類を使うかを考えます。

 

パラメトリック検定 or ノンパラメトリック検定

 

パラメトリック検定

以下に概要をまとめす。

 

パラメトリック検定

データの数が充分にあり、

その分布が正規分布に従うのであればパラメトリック検定

を使った方が精度の高い結果が得られます。

 

データが正規分布するかどうかは、以下の検定方法で確認します。

データ数 2000以下 Shapiro-WilkのW検定

データ数 2000より大きい KSL (Kolmogrov-Smirnov-Lilliefors)の検定

(統計ソフト JMPの場合)

 

ノンパラメトリック検定

ノンパラメトリック検定ではデータの分布は考慮しません。

データの尺度も基本的にはなんでもOKです。

 

かなり、ざっくりとした言い方になりますが、

  • データが少ないとき →  ノンパラメトリック検定
  • データが多いとき  →  パラメトリック検定

データ数は大体各グループ 20前後が分かれ目になるかと思います。(これはいろいろな意見があります。)

 

教科書的にはパラメトリック検定をできればbetterとの書き方が多いと思いますが、

なかなかハードルも高いです。

問題になるのは、平均値が必ずしもグループの分布の中心にならない時です。

 

どんな時かというと、極端な外れ値が数個含まれている時です。

外れ値というのは、グループで想定される中心から大きくぶっとんでいるデータであり、

平均値はこの値に大きく影響されてしまいます。

 

sampleデータを示します。( ↓ Excel fileダウンロード )

sample

 

日本の男子高校生の平均身長は170.7cmです。

30人を無作為に選んだ時、この値にある程度近くなるはずです。

 

グループAでは平均値、中央値ともに170.7cmに近い値をとります。

グループBでは、非常に背が高い(200cm)が3名含まれるので平均値が173.3cm、

中央値が171.5cmとなっており、

”日本の男子高校生の身長” を示す要約値としては中央値の方が適した値となります。

 

このようにある程度のデータ数がそろっている場合であっても、

中央値での比較であるノンパラメトリック検定を行った方が良いという考え方もできます。

 

いずれにせよ、検定を走らせる前に、

散布図やヒストグラムなどでデータの分布を観察する必要があります。

 

大量のデータを取るのが難しい場合では、ある程度のデータ量でまずはノンパラメトリック検定から入るのが無難な方法かと考えます。

*本項の序盤では、内容をわかりやすくするためにノンパラメトリック検定であっても平均値という表現をも用いました。

↓おすすめ著書

コメディカル統計テキスト エクセル活用 [ 宮城重二 ]
created by Rinker
¥2,592 (2019/08/26 00:54:24時点 楽天市場調べ-詳細)
 
統計解析なんかこわくない 第2版 データ整理から学会発表まで [ 田久 浩志 ]
created by Rinker
¥2,592 (2019/08/26 04:06:11時点 楽天市場調べ-詳細)