SYSTAT 13 テクニカルサポート SYSTAT 製品ページ
更新日: 14/05/13

8) 2 標本 t 検定

統計解析では、2 群の平均値の比較がよく行われます。 たとえば、被処理群と処理群で平均値が異なるかどうかを調べます。 理論的には、群に無作為に対象を割り当てる必要があります。

使用するサンプルデータについてはこちらをご覧ください。

この食料品のデータで、ダイエット食品と通常の食品の蛋白質とカルシウムの含有量の差を調べてみましょう。 この 2群への食品の割り当ては無作為ではありません。 実際の観察調査では、データを十分に吟味して、他の要因によって平均値の差が減少または増大していないことを確認する必要があります。

t 検定では、

H0: ダイエット食品と通常の食品の平均が等しい

という仮説を検定します。 この仮説の対立仮説には、

H1: ダイエット食品の平均は、通常の食品の平均より大きい、

H1: ダイエット食品の平均は、通常の食品の平均と等しくない

H1: ダイエット食品の平均は、 通常の食品の平均より小さい

が考えられます。情報がないので、2 番目の「等しくない」を選択します。この例では、ダイエット食品と通常の食品の蛋白質とカルシウムの含有量に差があるかどうかを、t 検定プロシージャを使用して調べます。

t 検定プロシージャでは、クイック グラフとして 2つの密度プロットが生成されます。 それぞれの変数の密度プロットの左右の両側に、群分け変数の各カテゴリのボックス プロットが表示されます。 各グラフの左側のボックス プロットは DIET$no の群で、右側のボックス プロットは DIET$yes の群のものです。各グラフの中央にはデータ点の実際の分布が、比較のための正規曲線とともに表示されます。

PROTEIN のボックス プロットは望ましい形状をしています。 中央値 (ボックス内に表示された横線) はボックスの中央にあり、左右のボックスの長さがほぼ同じです。 また、正規分布の平均値を表す正規曲線のピークも、中央値とほぼ同じです。 これは、分布が対称的で、ほぼ同じ広がり (分散) をもっていることを示しています。

ところが、CALCIUM の方はそうではありません。分布は歪んでいるため、分析の前に変換を行なう必要があります。

PROTEIN の平均値 (Mean) はグループ化分析の値と同じ、22.133 および 16.846 です。 標準偏差 (SD) は少し異なり (4.307 および 4.337)、ボックス プロットでの観察を裏付けています。 これは、平均値の下に表示されている合併偏差 t 検定 (pooled-variance t test) の結果を使用することができることを意味しています。

この検定は、教科書で最初に取り上げられていることが多く、分布の形状が同一であることを前提にしています。 PROTEIN に関しては、通常の食品の平均値 22.1 は、ダイエット食品の平均値 16.8 とは大きく異なっていると結論付けることができます (t = 3.229、p 値 = 0.003)。

個別分散 t 検定 (separate-variance t test)では、等分散の仮定は不要です。CALCIUM に関しては、ボックス プロットに表示されている分布と両群の標準偏差が 12.757 および 8.506 であることを考慮し、個別分散 t 検定の結果 (separate-variance t test) を使用します。 通常の食品とダイエット食品の CALCIUM の平均値に差があるかどうかは不明です(t = 0.501、p 値 = 0.621)。

このセクションの、SYSTAT のプロシージャに関する説明は初歩的なものですから、この段階で、CALCIUM の値が同質であると断定することは避けなければなりません。 他に影響を与えている因子が存在する可能性がありますから、判定は慎重に行なう必要があります。(→関連:交互作用のある 2元配置 ANOVA)

トップへ