23.6 段階的線形回帰

段階的線形回帰 (Stepwise Linear Regression) を使うのは:

モデルに取り込む独立変数が既知の場合は、多重線形回帰 (Multiple Linear Regression) を使います。可能性のある全てのモデルから幾つかの最良の方程式を求めたい場合は、ベストサブセット回帰 (Best Subsets Regression) を使います。直線や平面ではない関係の場合は、多項式回帰または非線形回帰を使います。

  1. 段階的線形回帰について
  2. 段階的線形回帰を実行する
  3. 段階的線形回帰のデータを配置する
  4. 前進型段階的線形回帰オプションを設定する
    1. Options for Forward Stepwise Regression: Criterion
    2. Options for Forward Stepwise Regression: Assumption Checking
      1. 正規性と等分散性の P 値
    3. Options for Forward Stepwise Regression: Residuals
    4. Options for Forward Stepwise Regression: More Statistics
    5. Options for Forward Stepwise Regression: Other Diagnostics
      1. Variance Inflation Factor
      2. Power
  5. 後退型段階的線形回帰オプションを設定する
    1. Options for Backward Stepwise Regression: Criterion
    2. Options for Backward Stepwise Regression: Assumption Checking
      1. 正規性と等分散性の P 値
    3. Options for Backward Stepwise Regression: Residuals
    4. Options for Backward Stepwise Regression: More Statistics
    5. Options for Backward Stepwise Regression: Other Diagnostics
      1. Variance Inflation Factor
      2. Power
  6. 段階的線形回帰を実行する
  7. 段階的回帰の結果を解釈する
    1. F-to-Enter, F-to-Remove
    2. ステップ番号
    3. 分散分析表
    4. Variables in Model
    5. Variables not in Model
    6. PRESS 統計量
    7. Durbin-Watson 統計量
    8. 正規性検定
    9. 等分散検定
    10. 検出力
    11. 回帰診断
    12. 影響診断
    13. 信頼区間
  8. 段階的回帰のレポートグラフ
    1. 段階的回帰のレポートグラフを作成する

 

1. 段階的線形回帰について

段階的回帰 (Stepwise Regression) は、多重線形回帰 (Multiple Linear Regression) の方程式の独立変数を候補となる幾つかの変数リストの中から選ぶ手法です。多重線形回帰の代わりに段階的回帰を使うと、無用な変数の使用、すなわち、モデル定義における過不足を回避することができます。

段階的回帰では、単一または複数の独立変数と従属変数の関係が、次式の多次元平面をあらわす一般方程式であてはめられることが仮定されます。

y=b0+b1x1+b2x2+b3x3+ ... bkxk

ここで、y は従属変数、x1, x2, x3, ..., xk は独立変数、b0, b1, b2, ... , bk は回帰係数です。独立変数は、既知の変数、すなわち予測変数です。xi の値が変化すると、それに伴って対応する y の値も bi のとる符号に応じて増加または減少します。段階的回帰は、選択した独立変数を方程式から追加または除外することによってどの独立変数を使用するかを決定します。

段階的回帰には次の2つのアプローチがあります:

Note:同一の変数候補を使う前進型と後退型の段階的回帰では、独立変数の候補の間に多重共線性があれば同じ回帰モデルが最終的に得られるとは限りません。

 

2. 段階的線形回帰を実行する

段階的線形回帰 (Stepwise Linear Regression) を実行するには:

  1. ワークシートに適切なデータを入力または配置します。詳しくは、段階的線形回帰のデータを配置するをご覧ください。

  2. 必要があれば、Stepwise Regression オプションを設定します。

  3. Analysis タブをクリックします。

  4. SigmaStat グループにある Tests ドロップダウンリストから以下を選択します:

    RegressionStepwiseForward
    または
    RegressionStepwiseBackward

  5. 検定を実行します。

  6. レポートグラフを作成します。詳しくは、段階的回帰のレポートグラフをご覧ください。

 

3. 段階的線形回帰のデータを配置する

段階的線形回帰のデータフォーマットは、独立変数のデータを単一または複数列に、それに対応する観測された従属変数のデータを1列に配置して構成します。欠損値を含む観測データは無視されます。また、全ての列は長さを等しくする必要があります。

 

4. 前進型段階的線形回帰オプションを設定する

段階的回帰オプションを使用するのは:

 

前進型段階的回帰オプションを変更するには:

  1. 検定オプションの変更後に検定を実行するに際して、検定の実行前にデータを選択しておきたい場合は、対象とするデータ列をポインターでドラッグしておきます。

  2. Analysis タブの SigmaStat グループにある Select Test ドロップダウンリストから Forward Stepwise Regression を選択します。

  3. Options をクリックします。 Options for Forward Stepwise Regression ダイアログボックスに以下の5つのタブが表示されます。

    1. Criterion:Criterion タブをクリックすると、F-to-Enter, F-to-Remove, および Number of Steps オプションが表示されます。詳しくは、Options for Forward Stepwise Regression: Criterion をご覧ください。

    2. Assumption Checking:Assumption Checking タブをクリックすると、Normality, Constant Variance, および Durbin-Watson オプションが表示されます。詳しくは、Options for Forward Stepwise Regression: Assumption Checking をご覧ください。

    3. Residuals:Residuals タブをクリックすると、各種残差オプションが表示されます。詳しくは、Options for Forward Stepwise Regression: Residuals をご覧ください。

    4. More Statistics:More Statistics タブをクリックすると、confidence intervals, PRESS Prediction Error, Standardized Coefficients オプションが表示されます。詳しくは、Options for Forward Stepwise Regression: More Statistics をご覧ください。

    5. Other Diagnostics:Other Diagnostics タブをクリックすると、検出力オプションが表示されます。詳しくは、Options for Forward Stepwise Regression: Other Diagnostics をご覧ください。

      オプションの設定内容は SigmaPlot を次回起動したときも保持されます。

  4. 検定を続行するには、Run Test をクリックします。

  5. 現在の設定内容を適用して、オプションダイアログを閉じるには、OK をクリックします。

 

4.1 Options for Forward Stepwise Regression: Criterion

オプションダイアログボックスから Criterion タブをクリックすると、F-to-Enter, F-to-Remove, および Number of Steps オプションが表示されます。これらのオプションを使って、段階的回帰の実行で回帰方程式に投入したり、置き換え、削除、除外する独立変数を指定したり、段階的アルゴリズムの停止条件を指定することができます。

 

4.2 Options for Forward Stepwise Regression: Assumption Checking

オプションダイアログボックスの Assumption Checking タブをクリックすると、Normality, Constant Variance, および Durbin-Watson オプションが表示されます。これらのオプションは、段階的線形回帰がそのデータについて行う3つの仮説をチェックすることによってお持ちのデータが回帰分析に適合しているかを検定します。段階的線形回帰で仮定するのは:

デフォルトでは全ての Assumption Checking (前提条件のチェック) オプションが選択されています。これらのオプションは、使用するデータが等分散の正規分布に従っており、その残差が互いに独立であることが確実に分かっているときだけ無効にしてください。

 

4.2.1 正規性と等分散性の P 値

Note:この前提条件の検定では、非正規や等分散性でない母集団のデータ検出においてロバストな処理がなされますが、データ分布が極端な条件では検出できない場合があります。しかし、このような条件の場合は、前提条件の自動検定に頼らずにデータを視覚的に調べることで容易に検出することができます。

 

4.3 Options for Forward Stepwise Regression: Residuals

オプションダイアログボックスの Residuals タブをクリックすると、Predicted Values, Raw, Standardized, Studentized, Studentized Deleted, および Report Flagged Values Only オプションが表示されます。

Note:スチューデント化残差、および、スチューデント化削除残差はいずれも、同じ信頼区間の設定を使って外れ値を判定します。

 

4.4 Options for Forward Stepwise Regression: More Statistics

オプションダイアログの More Statistics タブをクリックすると、信頼区間オプションが表示されます。母集団、回帰、または、両方の信頼区間を設定し、それらをワークシートに保存することができます。

 

4.5 Options for Forward Stepwise Regression: Other Diagnostics

オプションダイアログボックスの Other Diagnostics タブをクリックすると、Influence, Variance Inflation Factor および Power オプションが表示されます。Other Diagnostic が隠れている場合は、タブの右側にある右向きの矢印をクリックして表示圏内に移動します。左向きの矢印を使えば、その他のタブを表示圏内に戻すことができます。

Influence オプションは、影響力のあるデータポイントのインスタンスを自動的に検出するものです。影響力がもっとも強いポイントは、データポイントの外れ値です。すなわち、それ以外のデータポイントと一直線上に並ぼうとはしないものです。これらの点は、回帰直線の計算において極端に強い影響を及ぼす可能性があります。影響力のあるポイントを識別し定量化するための影響力の検定には、幾つかの種類が用意されています。

 

4.5.1 Variance Inflation Factor

 

4.5.2 Power

オプションダイアログボックスの Other Diagnostics タブをクリックすると、Power オプションが表示されます。Other Diagnostic が隠れている場合は、タブの右側にある右向きの矢印をクリックして表示圏内に移動します。左向きの矢印を使えば、その他のタブを表示圏内に戻すことができます。

 

5. 後退型段階的線形回帰オプションを設定する

後退型段階的線形回帰 (Backward Stepwise Regression) オプションを使用するのは:

 

後退型段階的回帰オプションを変更するには:

  1. 検定オプションの変更後に検定を実行するに際して、検定の実行前にデータを選択しておきたい場合は、対象とするデータ列をポインターでドラッグしておきます。

  2. Analysis タブの SigmaStat グループにある Select Test ドロップダウンリストから Backward Stepwise Regression を選択します。

  3. Options をクリックします。Options for Backward Stepwise Regression ダイアログボックスに以下の5つのタブが表示されます。

    1. Criterion:Criterion タブをクリックすると、F-to-Enter, F-to-Remove, および Number of Steps オプションが表示されます。詳しくは、Options for Backward Stepwise Regression: Criterion をご覧ください。

    2. Assumption Checking:Assumption Checking タブをクリックすると、Normality, Constant Variance, および Durbin-Watson オプションが表示されます。詳しくは、Options for Backward Stepwise Regression: Assumption Checking をご覧ください。

    3. Residuals:Residuals タブをクリックすると、各種残差オプションが表示されます。詳しくは、Options for Backward Stepwise Regression: Residuals をご覧ください。

    4. More Statistics:More Statistics タブをクリックすると、confidence intervals, PRESS Prediction Error, Standardized Coefficients オプションが表示されます。詳しくは、Options for Backward Stepwise Regression: More Statistics をご覧ください。

    5. Other Diagnostics:Other Diagnostics タブをクリックすると、検出力オプションが表示されます。詳しくは、Options for Backward Stepwise Regression: Other Diagnostics をご覧ください。

      オプションの設定内容は SigmaPlot を次回起動したときも保持されます。

  4. 検定を続行するには、Run Test をクリックします。

  5. 現在の設定内容を適用して、オプションダイアログを閉じるには、OK をクリックします。

 

5.1 Options for Backward Stepwise Regression: Criterion

オプションダイアログボックスから Criterion タブをクリックすると、F-to-Enter, F-to-Remove, および Number of Steps オプションが表示されます。これらのオプションを使って、段階的回帰の実行で回帰方程式に投入したり、置き換え、削除、除外する独立変数を指定したり、段階的アルゴリズムの停止条件を指定することができます。

 

5.2 Options for Backward Stepwise Regression: Assumption Checking

オプションダイアログボックスの Assumption Checking タブをクリックすると、Normality, Constant Variance, および Durbin-Watson オプションが表示されます。これらのオプションは、段階的線形回帰がそのデータについて行う3つの仮説をチェックすることによってお持ちのデータが回帰分析に適合しているかを検定します。段階的線形回帰で仮定するのは:

デフォルトでは全ての Assumption Checking (前提条件のチェック) オプションが選択されています。これらのオプションは、使用するデータが等分散の正規分布に従っており、その残差が互いに独立であることが確実に分かっているときだけ無効にしてください。

 

5.2.1 正規性と等分散性の P 値

Note:この前提条件の検定では、非正規や等分散性でない母集団のデータ検出においてロバストな処理がなされますが、データ分布が極端な条件では検出できない場合があります。しかし、このような条件の場合は、前提条件の自動検定に頼らずにデータを視覚的に調べることで容易に検出することができます。

 

5.3 Options for Backward Stepwise Regression: Residuals

オプションダイアログボックスの Residuals タブをクリックすると、Predicted Values, Raw, Standardized, Studentized, Studentized Deleted, および Report Flagged Values Only オプションが表示されます。

Note:スチューデント化残差、および、スチューデント化削除残差はいずれも、同じ信頼区間の設定を使って外れ値を判定します。

 

5.4 Options for Backward Stepwise Regression: More Statistics

オプションダイアログの More Statistics タブをクリックすると、信頼区間オプションが表示されます。母集団、回帰、または、両方の信頼区間を設定し、それらをワークシートに保存することができます。

 

5.5 Options for Backward Stepwise Regression: Other Diagnostics

オプションダイアログボックスの Other Diagnostics タブをクリックすると、Influence, Variance Inflation Factor および Power オプションが表示されます。Other Diagnostic が隠れている場合は、タブの右側にある右向きの矢印をクリックして表示圏内に移動します。左向きの矢印を使えば、その他のタブを表示圏内に戻すことができます。

Influence オプションは、影響力のあるデータポイントのインスタンスを自動的に検出するものです。影響力がもっとも強いポイントは、データポイントの外れ値です。すなわち、それ以外のデータポイントと一直線上に並ぼうとはしないものです。これらの点は、回帰直線の計算において極端に強い影響を及ぼす可能性があります。影響力のあるポイントを識別し定量化するための影響力の検定には、幾つかの種類が用意されています。

 

5.5.1 Variance Inflation Factor

 

5.5.2 Power

オプションダイアログボックスの Other Diagnostics タブをクリックすると、Power オプションが表示されます。Other Diagnostic が隠れている場合は、タブの右側にある右向きの矢印をクリックして表示圏内に移動します。左向きの矢印を使えば、その他のタブを表示圏内に戻すことができます。

 

6. 段階的線形回帰を実行する

段階的回帰 (Stepwise Regression) を実行するには、検定するデータを選択する必要があります。検定ウィザードの Select Data パネルを使用して、検定したいデータを含むワークシートの列を選択します。

段階的回帰を実行するには:

  1. 検定を実行する前にデータを選択したい場合は、データ範囲をマウスポインタでドラッグしておきます。

  2. Analysis タブをクリックします。

  3. SigmaStat グループの Tests ドロップダウンリストから以下を選択します:

    RegressionStepwiseForward
    または
    RegressionStepwiseBackward

    検定ウィザードの Select Data パネルが表示されます。検定を選択する前に列を選択していれば、Selected Columns リストにその列が表示されます。列を選択していなければ、データ選択の指示がダイアログボックスに表示されます。

  4. Selected Columns リストに別のワークシート列を割り当てたい場合には、ワークシートで直接その列を選択するか、Data for Dependent または Data for Independent ドロップダウンリストからその列を選択します。

    Selected Columns リストの Dependent Variable 行に割り当てられるのは最初に選択した列で、リストの Independent Variable 行に2列目が割り当てられます。各行には、選択した列の番号またはタイトルが表示されます。dependent と independent に選択できるデータはそれぞれ1列のみです。

  5. 選択した内容を変更するには、リストの割り当てを選択したあと、ワークシートから列を選択しなおします。Selected Columns リストの内容をダブルクリックすることによって、列の割り当てを消去することもできます。

  6. Finish をクリックすると、回帰が実行されます。正規性と等分散性、残差の独立性を検定するよう指定している場合、SigmaPlot は、正規性 (Shapiro-Wilk または Kolmogorov-Smirnov)、等分散性、残差の独立性を検定します。もしデータに関するこれらの検定のいずれかが棄却されると、SigmaPlot によりその旨が報告されます。検定が完了すると、Stepwise Regression レポートが表示されます。

    予測値 (Predicted) と残差 (Residual) およびその他の検定結果をワークシートに配置するよう選択している場合は、段階的回帰により選択された最終モデルの値のみが算出されます。これらの結果は、指定した列に配置され、それぞれラベルが付けられます。
Note:その他のモデルの結果を表示するには、そのモデルに使用した独立変数を記録しておき、その独立変数のみを使って多重線形回帰を実行します。

 

7. 段階的回帰の結果を解釈する

前進型および後退型の段階的回帰レポートにはいずれも、各段階で投入または除外された変数、回帰係数、分散分析表、および、モデルの内 (in) と外 (not in) の変数に関する情報が表示されます。Options for Forward または Backward Regression ダイアログボックスでオプションが選択されていれば、最終的な回帰モデルの回帰診断、信頼区間、および、予測値が一覧で表示されます。

 

結果の説明

数値による結果に加えて、拡張された結果の説明が表示されることがあります。この説明テキストは、Options ダイアログボックスで有効または無効にすることができます。表示される小数点以下の桁数についても Options ダイアログボックスで指定できます。

 

7.1 F-to-Enter, F-to-Remove

回帰計算の従属変数として使用したワークシートの列です。

これらは、Options for Stepwise Regression ダイアログボックスで指定した F 値です。

 

7.2 ステップ番号

ステップ番号、追加または除外された変数、方程式の R, R2 および adjusted R2、および、推定量の標準誤差がこの見出しの下に全て一覧で表示されます。

 

7.3 分散分析表

分散分析表には、ステップ毎に回帰に関する ANOVA 統計量とそれに関連する F 値が一覧で表示されます。

 

7.4 Variables in Model

現行ステップの回帰方程式で使用した独立変数に関する情報がこの見出しの下に一覧で表示されます。一覧で表示される値は、変数の係数、標準誤差、F-to-Remove、および、それに対応する F-to-Remove の P 値です。これらの統計量は、ステップ毎にそれぞれ表示されます。強制的にモデルに組み入れた変数にはアスタリスク (*) が付きます。

Note:F-to-Remove 値は、ある変数が方程式から除外されるか留まるかを決定するカットオフ値です。

 

7.5 Variables not in Model

モデルに投入されていない変数または除外された変数が、それに対応する F-to-Remove 値と P 値と共にこの見出しの下に一覧で表示されます。

Remember:方程式に再投入したりそのままにしておく変数を決定するのは、F-to-Enter 値です。

 

7.6 PRESS 統計量

PRESS (Predicted Residual Error Sum of Squares:予測残差平方和) は、ある回帰モデルが観測データをどれだけうまく予測できるかを評価する尺度です。

 

7.7 Durbin-Watson 統計量

 

7.8 正規性検定

正規性検定 (Normality Test) の結果には、元になる母集団が回帰直線の周囲に正規分布しているという仮説の検定にそのデータが合格 (Passed) したか否か (failed)、および、この検定で算出される P 値が表示されます。いずれの回帰でも、元になる母集団が回帰直線の周囲に正規分布すると仮定します。正規性検定が棄却された場合は、レポートに警告が表示されます。この結果は、検定オプションのダイアログボックスで正規性検定を無効にしない限り表示されます。

正規性検定が棄却された場合は、影響力のある外れ値が存在するか、回帰モデルに誤りがある可能性があります。

 

7.9 等分散検定

等分散検定 (Constant Variance Test) の結果には、元になる母集団の従属変数のばらつきが独立変数の値にかかわらず一定であるという仮説の検定にそのデータが合格 (Passed) したか否か (failed)、およびこの検定で算出される P 値が表示されます。等分散検定が棄却された場合は、レポートに警告が表示されます。

等分散検定が棄却された場合、別のモデル (例えば、データの形状により近いモデル) の使用を検討するか、または、独立変数を変換してばらつきを安定化することでより精度の高い回帰方程式のパラメータ推定値を得ることを検討してください。

 

7.10 検出力

この結果は、Options for Stepwise Regression ダイアログボックスでこのオプションを選択している場合に表示されます。

回帰モデルの検出力 (Power)、すなわち感度は、もし変数間に真の関係がある場合、そのモデルが変数の関係を正しくあらわす確率です。

回帰モデルの検出力は、測定データの数、誤って差があるとレポートする危険率 (アルファ)、および回帰の傾きに影響を受けます。

 

7.11 回帰診断

回帰診断の結果には Options for Stepwise Regression ダイアログボックスで選択した予測値、残差の診断結果のみが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付ける残差の値は、Options for Stepwise Regression ダイアログボックスで設定します。

Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされます。その観測データのその他の結果は全て表示されます。(※ v14 では Report flagged values only)

 

7.12 影響診断

影響診断の結果にはオプションダイアログボックスの Other Diagnostics タブで選択した結果の値だけが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付ける残差の値は、Options ダイアログボックスの Other Diagnostics タブで設定します。

Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされます。その観測データのその他の結果も表示されます。(※ v14 では Report flagged values only)

 

7.13 信頼区間

これらの結果は、Options for Stepwise Regression ダイアログボックスで選択している場合に表示されます。信頼区間にゼロが含まれていなければ、指定した信頼水準でその係数はゼロではないと結論付けることができます。これは、 P < α (alpha) としても表現できます。ここで、α は、係数はゼロではないと誤って結論付けてもよしとする確率で、信頼区間は 100(1 - α) となります。

信頼水準は、1 から 99 までの任意の値を指定できます。提示される信頼水準はいずれの区間についても 95% です。

 

8. 段階的回帰のレポートグラフ

段階的回帰の結果を使用して、以下に示す最大5つのグラフを作成することができます:

 

8.1 段階的回帰のレポートグラフを作成する

段階的回帰レポートのグラフを作成するには:

  1. レポートを表示した状態で、Report タブをクリックします。

  2. Result Graphs グループにある Create Result Graph をクリックします。

    Create Result Graph ダイアログボックスに Stepwise Regression の結果で使用できるグラフのタイプが表示されます。

  3. Graph Type リストから作成したいグラフのタイプを選択して、OK をクリックするか、リストから作成したいグラフをダブルクリックします。詳しくは、レポートグラフをご覧ください。
    グラフウィンドウに指定したグラフが表示されます。