23.4 多重ロジスティック回帰

多重ロジスティック回帰 (Multiple Logistic Regression) は、データにロジスティック関数をあてはめることによって、単一または複数の独立変数の観測データから、例えば、疾病の有り/無しといった、定性的な従属変数を予測したいときに使います。

独立変数は、予測変数とも呼ばれる既知の変数です。独立変数を変化させると、それに対応する従属変数 (すなわち応答変数) の値が決まります。SigmaPlot のロジスティック回帰では、従属変数が2値 (dichotomous) であること、すなわち、応答のとりうる値 (生か死か、黒か白か) が 0 と 1 の2つの値であらわされる必要があります。

お持ちのデータの従属変数が2値でない場合、独立変数が1つであれば単純線形回帰 (Simple Linear Regression) を、独立変数が複数あれば多重線形回帰 (Multiple Linear Regression) 使います。

  1. 多重ロジスティック回帰について
  2. 多重ロジスティック回帰を実行する
  3. 多重ロジスティック回帰のデータを配置する
  4. 多重ロジスティック回帰オプションを設定する
    1. Options for Multiple Logistic Regression: Criterion
    2. Options for Multiple Logistic Regression: More Statistics
      1. 多重共線性の対処法
    3. Options for Multiple Logistic Regression: Residuals
      1. 影響点の対処法
  5. 多重ロジスティック回帰を実行する
  6. 多重ロジスティック回帰の結果を解釈する
    1. 回帰方程式
    2. 観測数
    3. 推定基準 (Estimation Criterion)
    4. 従属変数
    5. 独立変数の固有の組合せの数
    6. Hosmer-Lemshow の P 値
    7. ピアソンのカイ二乗統計量
    8. 尤度比検定統計量
    9. 対数尤度統計量
    10. 正に分類する確率の閾値
    11. 分類表
    12. 確率表
    13. 統計サマリー表
    14. 残差の計算方法
    15. 残差表
    16. 影響診断

 

1. 多重ロジスティック回帰について

多重ロジスティック回帰 (Multiple Logistic Regression) では、従属変数と k 個の独立変数との関係が以下の多次元平面であらわされる一般方程式に当てはめられることが仮定されます:

ここで、y は従属変数、P(y =1) は従属変数が正の応答、すなわち値が 1 となる予測確率、b0 から bkk+1 個の回帰係数、そして、x1 から xk は独立変数となります。

xi の値を変化させると、それに対応する y =1 となる予測確率も、関連する回帰係数 bi の符号に応じて増加または減少します。

多重ロジスティック回帰では、与えられた独立変数の観測値から従属変数の観測値を最も良く予測する回帰係数の値の集合を求めます。

 

2. 多重ロジスティック回帰を実行する

多重ロジスティック回帰を実行するには:

  1. ワークシートに適切なデータを入力または配置します。詳しくは、多重ロジスティック回帰のデータを配置するをご覧ください。

  2. Logistic Regression オプションを設定します。

  3. Analysis タブをクリックします。

  4. SigmaStat グループにある Tests ドロップダウンリストから以下を選択します:

    RegressionMultiple Logistic

  5. Multiple Logistic Regression レポートを表示して内容を解釈します。詳しくは、多重ロジスティック回帰の結果を解釈するをご覧ください。

  6. 検定を実行します。

 

3. 多重ロジスティック回帰のデータを配置する

測定された従属変数のデータを1列に、それに対応する独立変数のデータを2列目以降の列に配置します。

ロジスティック回帰データは、観測された従属変数のデータを1列に、対応する独立変数のデータをそれ以外の単一または複数の列に配置する生データ (raw data) フォーマットでワークシートに入力します。従属変数のデータは2値データとして、独立変数のデータは数値形式で入力する必要があります。

お持ちの従属変数データが、連続する数値データであったりテキストである場合、または、カテゴリ型の独立変数を使用している場合は、参照コーディングを使ってそれらを同等のダミー変数の集合に変換する必要があります。

欠損値を含む観測データは無視されます。また、いずれの列も長さを等しくする必要があります。

 

4. 多重ロジスティック回帰オプションを設定する

多重ロジスティック回帰 (Multiple Logistic Regression) オプションを使うのは:

 

多重ロジスティック回帰オプションを変更するには:

  1. 検定オプションの変更後に検定を実行するに際して、検定の実行前にデータを選択しておきたい場合は、対象とするデータ列をポインターでドラッグしておきます。

  2. Analysis タブを選択します。

  3. SigmaStat グループの Tests ドロップダウンリストから Multiple Logistic Regression を選択します。

  4. Options をクリックします。Options for Multiple Logistic Regression ダイアログボックスに以下の3つのタブが表示されます:

    1. Criterion:Criterion タブをクリックすると、各種判定基準のオプションが表示されます。詳しくは、Options for Multiple Logistic Regression: Criterion をご覧ください。

    2. More Statistics:More Statistics タブをクリックすると、Standard Error Coefficients、Wald Statistic, Odds Ratio, Odds Ratio Confidence, and Coefficients P Values, Predicted Values, and Variance Inflation Factor オプションが表示されます。詳しくは、Options for Multiple Logistic Regression: More Statistics をご覧ください。

    3. Residuals:Residuals タブをクリックすると、残差 (Residuals) と影響力 (Influence) オプションが表示されます。詳しくは、Options for Multiple Logistic Regression: Residuals をご覧ください。

      SigmaPlot を次回以降起動するときは、ここで選択したオプションの内容が保持されます。

  5. 検定を続行するには、Run Test をクリックします。

  6. 現在の設定内容を適用して、オプションダイアログを閉じるには、OK をクリックします。

 

4.1 Options for Multiple Logistic Regression: Criterion

各種判定基準のオプションを設定するには、Options for Multiple Logistic Regression ダイアログボックスの Criterion タブをクリックします。これらのオプションを使って、ロジスティック方程式とデータの当てはまりの良さを検定する判定基準を指定します。

 

4.2 Options for Multiple Logistic Regression: More Statistics

 

4.2.1 多重共線性の対処法

標本に基づく多重共線性 (Sample-based multicollinearity) は、他の条件下でデータを多く収集して独立変数間の相関関係を無くすことで解消される場合があります。もし解消できなければ、その回帰方程式のパラメーターは過剰であることになり、単一または複数の独立変数を取り除くことで多重共線性を排除する必要があります。

構造的多重共線性 (structural multicollinearities) は、累乗や交互作用項ができる前に独立変数を中心化することによって解消することができます。

 

4.3 Options for Multiple Logistic Regression: Residuals

オプションダイアログボックスの Residuals タブをクリックすると、Residual Type, Raw, Standardized, Studentized, Studentized Deleted, および Report Flagged Values Only オプションが表示されます。

Note:スチューデント化残差、および、スチューデント化削除残差はいずれも、同じ信頼区間の設定を使って外れ値を判定します。

 

Influence オプションは、影響力のあるデータポイントのインスタンスを自動的に検出するものです。影響力がもっとも強いポイントは、データポイントの外れ値です。すなわち、それ以外のデータポイントと一直線上に並ぼうとはしないものです。これらの点は、回帰直線の計算において極端に強い影響を及ぼす可能性があります。影響力のあるポイントを識別し定量化するための影響力の検定には、幾つかの種類が用意されています。

 

4.3.1 影響点の対処法

影響点には次の2つの原因があります:

データの収集や入力に誤りがあった場合は、その値を修正してください。修正する値がわからなければ、そのデータポイントの削除を判断できるかもしれません。モデルに誤りがあるようであれば、回帰の独立変数を変更するか、非線形回帰をお試しください。

 

5. 多重ロジスティック回帰を実行する

多重ロジスティック回帰 ( Multiple Logistic Regression) を実行するには、検定するデータを選択する必要があります。検定ウィザードの Select Data パネルを使用して、検定したいデータを含むワークシートの列を選択します。

多重ロジスティック回帰を実行するには:

  1. 検定を実行する前にデータを選択したい場合は、データ範囲をマウスポインタでドラッグしておきます。

  2. Analysis タブをクリックします。

  3. SigmaStat グループの Tests ドロップダウンリストから以下を選択します:

    RegressionMultiple Logistic

    検定ウィザードの Select Data パネルが表示されます。検定を選択する前に列を選択していれば、Selected Columns リストにその列が表示されます。列を選択していなければ、データ選択の指示がダイアログボックスに表示されます。

  4. Selected Columns リストに別のワークシート列を割り当てたい場合には、ワークシートで直接その列を選択するか、Data for Dependent または Data for Independent ドロップダウンリストからその列を選択します。

  5. Selected Columns リストの Dependent 行に割り当てられるのは最初に選択した列で、リストの Independent 行に2列目以降が割り当てられます。

  6. 値を含む列を選択すると、dependent と independent の組合せを繰り返す回数が表示されます。各行には、選択した列の番号またはタイトルが表示されます。

  7. 選択した内容を変更するには、リストの割り当てを選択したあと、ワークシートから列を選択しなおします。Selected Columns リストの内容をダブルクリックすることによって、列の割り当てを消去することもできます。

  8. Finish をクリックすると、回帰が実行されます。正規性と等分散性、残差の独立性を検定するよう指定している場合、SigmaPlot は、正規性 (Shapiro-Wilk または Kolmogorov-Smirnov)、等分散性、残差の独立性を検定します。もしデータに関するこれらの検定のいずれかが棄却されると、SigmaPlot によりその旨が報告されます。検定が完了すると、Multiple Logistic Regression の結果をあらわすレポートが表示されます。

    残差 (Residual) とその他の結果をワークシートに配置するよう選択している場合は、指定した列にそれらが配置され、それぞれラベルが付けられます。

 

6. 多重ロジスティック回帰の結果を解釈する

多重ロジスティック回帰のレポートには、方程式と算出された係数、それらの標準誤差、検定の観測データの数、ロジスティック方程式をデータに当てはめるのに使用した推定基準、従属変数データのあるワークシートの列、正の応答と参照応答をあらわす値、および、Hosmer-Lemshow およびカイ二乗適合度の統計量が表示されます。

レポートに表示されるその他の結果は、Options for Linear Regression ダイアログボックスで有効または無効にすることができます。

 

結果の説明

数値による結果に加えて、拡張された結果の説明が表示されることがあります。この説明テキストは、Options ダイアログボックスで有効または無効にすることができます。表示される小数点以下の桁数についても Options ダイアログボックスで指定できます。

 

6.1 回帰方程式

ロジスティック回帰方程式は次式で与えられます:

ここで、P は「正 (Positive)」の応答 (例えば、従属変数の値が 1 ) の確率、x1, x2, x3, ..., xk は独立変数、b1, b2, b3,..., bk は回帰係数です。この方程式は、両辺にロジット変換を適用して次式に書き換えることができます。

 

6.2 観測数

観測データの数 N。欠損値を含む観測データの数は回帰分析から除外されますが、これも表示されます。

 

6.3 推定基準 (Estimation Criterion)

ロジスティック回帰では、最尤法 (maximum likelihood approach) を使用して、観測データに最も良く適合していそうなロジスティック回帰方程式の係数 (bi ) の値を求めます。

Note:多重ロジスティック回帰の残差の平方和を最小化して算出する回帰係数も最尤推定量です。

 

6.4 従属変数

レポートの Dependent Variable セクションには、従属変数列のどの値が正の応答 (1) をあらわし、どの値が参照応答 (0) をあらわすかが示されます。

 

6.5 独立変数の固有の組合せの数

Number of Unique Independent Variable Combinations の値は、独立変数の固有の組合せの数をあらわします。Options for Logistic Regression ダイアログボックスの Number of Independent Variable Combinations オプションを選択している場合に表示されます。独立変数の固有の組合せの数は、実際の独立変数の数と比較されます。もしこの値が Number of Independent Variable Combinations オプションで指定した値よりも小さければ、その結果は信頼できないものである可能性があるとの警告メッセージがレポートに表示されます。

 

6.6 Hosmer-Lemshow の P 値

Hosmer-Lemshow の P 値は、それぞれの結果 (outcome) の個体数とロジスティック方程式に基づく期待値とを比較することによってそのロジスティック回帰方程式のデータに対する適合度を示します。検定する帰無仮説は、「そのロジスティック方程式はデータをあらわす」です。したがって、P 値が小さければ、その方程式はデータと当てはまりが悪いことになります (例えば、一致するという帰無仮説を棄却します)。P 値が大きければ、そのロジスティック方程式とデータの当てはまりは良いことになります。Hosmer-Lemshow の P 値の臨界点は、Options for Multiple Logistic Regression ダイアログボックスで設定します。

データセットが少ない場合、ロジスティック回帰を測定する適合度の解釈には細心の注意を払ってください。いずれの P 値もカイ二乗確率分布に基づくものですが、これは観測データが少ない場合の使用は推奨されていないからです。

 

6.7 ピアソンのカイ二乗統計量

Pearson Chi-Square statistic (ピアソンのカイ二乗統計量) は、ピアソン残差を二乗して合計したものです。これは、カイ二乗検定統計量を使用して従属変数の観測値と予測値との一致度をはかる尺度です。カイ二乗検定統計量は、通常の線形回帰における残差平方和と同等のものです。カイ二乗の値が小さければ (およびそれに対応する P 値が大きければ) 、そのロジスティック回帰方程式とデータの適合度が良いことを示し、カイ二乗の値が大きければ (およびその P 値が小さければ)、適合度が悪いことを示します。ピアソンのカイ二乗オプションは、Options for Multiple Logistic Regression ダイアログボックスで設定します。

 

6.8 尤度比検定統計量

Likelihood Ratio Test Statistic (尤度比検定統計量) は、逸脱残差 (deviance residuals) の二乗を合計して求めたものです。独立変数の従属変数に対する影響がない観測データを得る見込みと、独立変数の従属変数に対する影響がある観測データを得る見込みを比較することによって、そのロジスティック方程式のデータに対する適合度を示します。

この比較は、その独立変数を使う場合と使わない場合のロジスティック回帰を実行し、それらの結果を比較することによって算出されます。もし、独立変数が結果に影響を及ぼすパターンが及ぼさないパターンと比べて多く生じる結果が観測されれば、レポートされる P 値の率は小さくなり、そのことはロジスティック回帰方程式とデータの適合度が良いことを示します。

 

6.9 対数尤度統計量

-2 対数尤度 (-2*Log(Likelihood)) 統計量は、実際の観測値と予測確率との間の適合度の尺度です。次式の和で与えられます:

ここで、yiμi は、それぞれ、従属変数の観測値と予測値、n は観測データの数です。なお、ln(1) はゼロなので観測値は必ず 0 か 1 になる点に注意してください。したがって、予測値が観測値に近いほど、この和はゼロに近づくことになります。

また、-2 対数尤度は、逸脱残差 (deviance residuals) の二乗の合計とも等しくなります。

-2 対数尤度 (LL) 統計量と尤度比 (LR) は、次式の関係にあります:

LR = LL - LL0

ここで、LL0 は、独立変数をもたない定数項のみからなる回帰モデルの -2 対数尤度です。この関係から、LL0LL はいずれも正であるので、適合度が高いほど LL は必ずゼロに近づく点に注意してください (極端な場合、完全に適合していれば LL はゼロになり、全く適合していなければ LLLL0 と等しくなります)。したがって、LR が大きいほど与えられた従属変数に関する独立変数の暗黙の説明力は大きいことになります。

 

6.10 正に分類する確率の閾値

この確率の閾値は、ロジスティックモデルによって予測される分類表と確率表 (下記参照) の応答が正 (positive) または参照 (reference) のいずれになるかを決定します。指定した予測値の閾値より、確率表の予測確率が上回れば、その予測値には正の応答 (値 1) が割り当てられます。反対に、指定した値より小さいか等しい確率であれば、値 0 または参照値が割り当てられます。この閾値確率は、Options ダイアログボックスで設定します。

 

6.11 分類表

分類表 (Classification Table) は、観測された従属変数の応答と予測された従属変数の応答を交差分類し、正しく分類されたケースと誤って分類されたケースを識別し、その数の結果をまとめたものです。

ロジスティックモデルによって分類される応答は、確率表の推定ロジスティック確率と、指定した確率の閾値を比較することによって求められます (前のセクションを参照)。

この表は、Options ダイアログボックスの Classification Table オプションを選択したときにレポートに表示されます。

 

6.12 確率表

確率表 (Probability Table) には、従属変数の実際の応答と、正の応答 (値 1) の予測ロジスティック確率、および、従属変数の予測応答がリストされます。予測応答には、予測ロジスティック確率と指定した確率の閾値を比較して求めた 1 (正の応答) か 0 (参照応答) の値が割り当てられます (前のセクションを参照)。

この表は、Options ダイアログの Predicted Values オプションを選択したときにレポートに表示されます。

 

6.13 統計サマリー表

このサマリー表には、係数、標準誤差、Wald 統計量、オッズ比、オッズ比の信頼区間、P 値、および独立変数の VIF がリストされます。

 

6.14 残差の計算方法

Residual calculation method には、ロジスティック回帰を計算した残差が表示されます。この残差は、Options for Logistic Regression ダイアログで Pearson (ピアソン) または Deviance (逸脱度) を選択することができます。選択した内容によって、逸脱残差 (deviance residual) の二乗を最小化するロジスティック回帰それ自体には影響しませんが、スチューデント化残差の計算には影響します。

ピアソン残差は次式で定義されます:

ここで、 yiμi は、それぞれ、i 番目のケースの従属変数の観測値と予測値です。

逸脱残差 (deviance residual) は次式で定義されます:

 

6.15 残差表

残差表には、オプションダイアログボックスの関連オプションの選択に応じて、生の残差、ピアソンまたは逸脱残差、スチューデント化、および、スチューデント化削除残差が表示されます。外れ値として判断された全ての残差には < 記号のフラッグが付きます。外れ値としてフラッグをつける残差のトリガーとなる値も、Options for Multiple Logistic Regression ダイアログで設定します。

Report Flagged Values Only を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データのみがレポートに表示されます。ただし、その観測データに関するそれ以外の結果は全て表示されます。残差の計算方法は、オプションダイアログボックスの残差タイプに Pearson を選択したか Deviance を選択したかに応じて変わります。

 

6.16 影響診断

影響診断の結果にはオプションダイアログボックスの Residuals タブで選択した結果の値だけが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付けるトリガーとなる残差の値は、Options ダイアログボックスの Residuals タブで設定します。

Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされます。その観測データのその他の結果も表示されます。(※ v14 では Report flagged values only)