17.7 予測や相関の手法を選ぶ
ある変数の値を、それ以外の単一または複数の変数から予測したい場合は、回帰手法を使用して予測方程式を推測することで、ある変数が他の変数と関連性があるか否かをあらわす相関係数を計算することができます。
3.7.1 変数の予測に回帰を使用する場合
回帰手法は、数学的モデルの係数を見積もることによって、ある変数 (従属変数) の値を単一または複数の独立変数から予測するのに使います。回帰では、従属変数の値は常に独立変数の値によって決定されることが仮定されます。回帰は、データに対する直線または曲線の当てはめとしても知られています。
回帰は、残差 (予測値と観測される従属変数の値との差: residuals) が一定の分散で正規分布に従うと仮定するパラメトリックな統計手法です。
使用する回帰プロシージャのタイプは、独立変数の数と、従属変数と独立変数の関係の形によって変わります。回帰の実行には、Simple Linear Regression (単純線形回帰), Multiple Linear Regression (多重線形回帰), Multiple Logistic Regression (多重ロジスティック回帰), Polynomial Regression (多項式回帰)、および、Nonlinear Regression (非線形回帰) を使用することができます。
- 独立変数が1つで、従属変数が独立変数に比例して (例えば、直線的に) 変化する場合は、単純線形回帰 (Simple Linear Regression) プロシージャを使用します。詳しくは、単純線形回帰 をご覧ください。
- 独立変数が複数あり、従属変数が各独立変数に比例して (例えば、直線的に) 変化する場合は、多重線形回帰 (Multiple Linear Regression) を使います。詳しくは、多重線形回帰 をご覧ください。
- 単一または複数の独立変数の観測値から、ロジスティック関数をデータに当てはめることによって、疾患が存在するか否かといった、質的な従属変数を予測したい場合は、多重ロジスティック回帰 (Multiple Logistic Regression) を使います。詳しくは、多重ロジスティック回帰 をご覧ください。
- 回帰方程式に独立変数のべき乗を含む曲線関係がある場合は、多項式回帰 (Polynomial Regression) を使います。詳しくは、多項式回帰 をご覧ください。
- 任意の一般方程式を観測値に当てはめるには、非線形回帰 (Nonlinear Regression) を使います。
独立変数の候補が多重線形回帰モデルに寄与するか否かを判断するには、Forward and Backward Stepwise Regression (前進型・後退型の段階的回帰) または Best Subset Regression (ベストサブセット回帰) を使います。
- はじめに全ての独立変数を選択し、従属変数の予測に寄与しない変数を、モデル内の変数が予測値を真に持つものだけなるまで削除していく場合は、Backwards Stepwise Regression を使います。詳しくは、段階的線形回帰 をご覧ください。
- 独立変数をゼロから開始し、従属変数の予測に寄与する全ての変数が (理論的に) 揃うまでモデルに追加していく場合は、Forward Stepwise Regression を使います。詳しくは、段階的線形回帰 をご覧ください。
- 候補となる全ての回帰方程式のモデルを評価し、その中から (指定した基準に従って) 予測能力が最適なものを識別する場合は、Best Subset Regression を使います。詳しくは、ベストサブセット回帰 をご覧ください。
※ Tip:これらのプロシージャを使って多重線形回帰 (Multiple Linear Regression) モデルを求めることができます。曲線型のデータセットには、多項式 (Polynomial) または非線形回帰 (Nonlinear Regression) を選択してください。 |
3.7.2 相関を使用する場合
2変数間の関係 (relationship) を、どちらが従属変数でどちらが独立変数かを指定せずに数量化したい場合は、相関係数 (correlation coefficient) を計算します。相関は、ある変数の値から別の変数の値を予測するものではありません:ある変数と別の変数との間の関係の強度を数量化するのみです。
計算できる相関係数には次の2つの種類があります:Pearson Product Moment Correlation ピアソンの積率相関係数と、Spearman Rank Order Correlation スピアマンの順位相関係数です。
- 残差が正規分布に従い、その分散が一定である場合は、ピアソンの積率相関 (Pearson Product Moment Correlation) を選択します。ピアソンの積率相関は、データが正規母集団から抽出されていることを前提とするパラメトリック検定です。詳しくは、ピアソンの積率相関 をご覧ください。
- 残差が正規分布に従っていないか、その分散が一定でない場合、または、その両方である場合は、スピアマンの順位相関 (Rank Order Correlation) を選択します。スピアマンの順位相関は、算術的な値ではなく順位 (ranks) に基づいて関連性の尺度を構成するノンパラメトリック検定です。詳しくは、スピアマンの順位相関 をご覧ください。
- お持ちの標本が、例えば、悪い、まあまあ、良い、非常によい、といった具合に既に質的な順位に従って順序付けられている場合は、スピアマンの順位相関を選択します。
ピアソンの積率相関は、正規性と定分散を前提としているため、スピアマンの順位相関と比べて感度が若干高い (例えば、検出力の値が高い) というメリットがあります。