23.7 ベストサブセット回帰

線形ベストサブセット回帰 (Linear Best Subsets Regression) を使うのは:

独立変数は、予測変数とも呼ばれる既知の変数です。独立変数を変化させると、それに対応する従属変数 (応答変数ともいう) の値が決まります。

使用する独立変数がどれであるかが既に分かっている場合は、多重線形回帰 (Multiple Linear Regression) を使います。モデルに変数を逐次的に追加したり除外していくことによって、方程式モデルを選択したい場合は、段階的回帰 (Stepwise Regression) を使います。直線や平面ではない関係の場合は、多項式回帰 (Polynomial) または非線形回帰 (Nonlinear Regression) を使います。

  1. ベストサブセット回帰について
  2. 「ベスト」サブセットの判定基準
  3. ベストサブセット回帰を実行する
  4. ベストサブセット回帰のデータを配置する
  5. ベストサブセット回帰オプションを設定する
    1. Options for Best Subset Regression: Criterion
      1. 多重共線性データにフラッグを付ける
  6. ベストサブセット回帰を実行する
  7. ベストサブセット回帰の結果を解釈する
    1. サマリーテーブル
    2. 各サブセットの結果

 

1. ベストサブセット回帰について

ベストサブセット回帰 (Best Subsets Regression) は、独立変数の異なる組み合わせを系統的に調べ、従属変数の予測に最も寄与する変数のサブセット (最有力候補) を選択することで多重線形回帰の変数を選び出す手法です。

ベストサブセット回帰では、独立変数と従属変数との関係が以下の多次元平面の一般方程式で当てはめられることが仮定されます:

y = b0+b1x1+b2x2+b3x3+...bkxk

ここで、y は従属変数、x1, x2, x3..., xk は独立変数、そして、b1, b2, b3..., xk は回帰係数です。xi の値を変化させると、それに対応する y の値も増加または減少します。ベストサブセット回帰では、従属変数の予測が「ベスト」になるような独立変数の組み合わせを求めます。「ベスト」であるという判定基準 (criteria) には幾つかの種類がありますので、選択する基準に応じてその結果は変わります。これらの判定基準は、Options for Best Subset Regression ダイアログボックスで指定します。

ベストサブセット回帰では、予測値、残差、グラフ、その他の結果は出力されません。これらの結果を表示させたい場合は、そのモデルで使用した独立変数を書き留めた後、その独立変数だけを使って多重線形回帰を実行してください。

 

2. 「ベスト」サブセットの判定基準

従属変数の予測に寄与する「ベスト」な変数のサブセットはどれであるかを評価する統計量は3つあります。

 

3. ベストサブセット回帰を実行する

ベストサブセット回帰を実行するには:

  1. ワークシートに適切なデータを入力または配置します。詳しくは、ベストサブセット回帰のデータを配置するをご覧ください。

  2. 必要があれば、Best Subset Regression オプションを設定します。

  3. Analysis タブをクリックします。

  4. SigmaStat グループにある Tests ドロップダウンリストから以下を選択します:

    RegressionBest Subsets

  5. Best Subset Regression レポートを表示して内容を解釈します。詳しくは、ベストサブセット回帰の結果を解釈するをご覧ください。

 

4. ベストサブセット回帰のデータを配置する

観測した従属変数のデータを1列に配置し、それに対応する独立変数のデータを単一または複数の列に配置します。欠損値を含む観測データは無視されます。また、全ての列は長さを等しくする必要があります。

 

5. ベストサブセット回帰オプションを設定する

ベストサブセット回帰オプションを使用するのは:

 

ベストサブセット回帰オプションを変更するには:

  1. 検定オプションの変更後に検定を実行するに際して、検定の実行前にデータを選択しておきたい場合は、対象とするデータ列をポインターでドラッグしておきます。

  2. Analysis タブの SigmaStat グループにある Select Test ドロップダウンリストから Best Subset Regression を選択します。

  3. Options をクリックします。

    Options for Best Subset Regressionダイアログボックスに Criterion タブが表示されます。 詳しくは、Options for Best Subset Regression: Criterion をご覧ください。

    オプションの設定内容は、SigmaPlot を次回起動したときも保持されます。

  4. 検定を続行するには、Run Test をクリックします。

  5. 現在の設定内容を適用して、オプションダイアログを閉じるには、OK をクリックします。

 

5.1 Options for Best Subset Regression: Criterion

ベストサブセットの決定に使用する判定基準を選択するには、Best Criterion オプションを、リストするサブセットの数を指定するには Number of Subsets オプションを使います。

 

5.1.1 多重共線性データにフラッグを付ける

 

6. ベストサブセット回帰を実行する

ベストサブセット回帰 (Best Subset Regression) を実行するには、検定するデータを選択する必要があります。検定ウィザードの Select Data パネルを使用して、検定したいデータを含むワークシートの列を選択します。

ベストサブセット回帰を実行するには:

  1. 検定を実行する前にデータを選択したい場合は、データ範囲をマウスポインタでドラッグしておきます。

  2. Analysis タブをクリックします。

  3. SigmaStat グループの Tests ドロップダウンリストから以下を選択します:

    RegressionBest Subsets

    検定ウィザードの Select Data パネルが表示されます。検定を選択する前に列を選択していれば、Selected Columns リストにその列が表示されます。列を選択していなければ、データ選択の指示がダイアログボックスに表示されます。

  4. Selected Columns リストに別のワークシート列を割り当てたい場合には、ワークシートで直接その列を選択するか、Data for Dependent または Data for Independent ドロップダウンリストからその列を選択します。

    Selected Columns リストの Dependent Variable 行に割り当てられるのは最初に選択した列で、リストの Independent Variable 行に2列目以降が割り当てられます。各行には、選択した列の番号またはタイトルが表示されます。Independent Variable 行には最大 64 列を選択できます。

  5. 選択した内容を変更するには、リストの割り当てを選択したあと、ワークシートから列を選択しなおします。Selected Columns リストの内容をダブルクリックすることによって、列の割り当てを消去することもできます。

  6. Finish をクリックすると、回帰が実行されます。ベストサブセット回帰が実行されます。検定が完了すると、Best Subset regression レポートが表示されます。
Tip:ベストサブセット回帰では、予測値、残差、グラフ、その他の結果は出力されません。これらの結果を表示させたい場合は、そのモデルで使用した独立変数を書き留めた後、その独立変数だけを使って多重線形回帰を実行してください。」

 

7. ベストサブセット回帰の結果を解釈する

ベストサブセット回帰レポートには、全ての変数サブセットに関する「ベスト」判定基準の統計量のサマリーテーブルが、誤差の平均平方 (MSerr) とそのサブセット固有のメンバー変数と共に一覧で表示されます。

なお、リストに表示されるサブセットの数は、Options for Best Subsets Regression ダイアログで選択したサブセットの数と、ベストサブセットの選択に使用した判定基準によって決定されます。

Tip:ベストサブセット回帰では、レポートグラフを作成するこはできません。グラフを表示するには、関心のあるサブセットに含まれる変数を使って多重線形回帰を実行し、それらの結果をグラフ化します。詳しくは、多重線形回帰 (Multiple Linear Regression) をご覧ください。

 

結果の説明

数値による結果に加えて、拡張された結果の説明が表示されることがあります。この説明テキストは、Options ダイアログボックスで有効または無効にすることができます。表示される小数点以下の桁数についても Options ダイアログボックスで指定できます。

 

7.1 サマリーテーブル

 

7.2 各サブセットの結果

サマリーテーブルで特定された回帰方程式それぞれに関する統計結果をあらわすテーブルが一覧で表示されます。