23.3 多重線形回帰

多重線形回帰 (Multiple Linear Regression) を使うのは:

独立変数は、予測変数とも呼ばれる既知の変数です。独立変数を変化させると、それに対応する従属変数 (応答変数ともいう) の値が決まります。

独立変数が1つしかないことが既知である場合は、単純線形回帰 (Simple Linear Regression) を使います。全ての独立変数をモデルに使用すべきかどうかが分からない場合は、段階的 (Stepwise) またはベストサブセット (Best Subsets) 回帰を使って選択した独立変数の候補の中から重要な独立変数を特定します。

関係が直線や平面でない場合は、多項式 (Polynomial) や非線形 (Nonlinear) 回帰を使うか、変数変換を使います。

  1. 多重線形回帰について
  2. 多重線形回帰を実行する
  3. 多重線形回帰のデータを配置する
  4. 多重線形回帰オプションを設定する
    1. Options for Multiple Linear Regression: Assumption Checking
    2. Options for Multiple Linear Regression: Residuals
    3. Options for Multiple Linear Regression: More Statistics
    4. Options for Multiple Linear Regression: Other Diagnostics
      1. 影響点の対処法
      2. 多重共線性の対処法
  5. 多重線形回帰を実行する
  6. 多重線形回帰の結果を解釈する
    1. 回帰方程式
    2. 重相関係数 R、決定係数 R Squared、自由度調整済み決定係数 Adj R Squared
    3. 推定量の標準誤差
    4. 統計量のサマリーテーブル
    5. Beta (標準化係数 βi)
    6. 分散分析表
    7. 増分平方和
    8. PRESS 統計量
    9. Durbin-Watson 統計量
    10. 正規性検定
    11. 等分散検定
    12. 検出力
    13. 回帰診断
    14. 影響診断
    15. 信頼区間
  7. 多重線形回帰のレポートグラフ
    1. 多重線形回帰のレポートグラフを作成する

 

1. 多重線形回帰について

多重線形回帰 (Multiple Linear Regression) では、従属変数と k 個の独立変数との関係性が以下の多次元平面の一般方程式で当てはめられることが仮定されます:

y =b0+b1x1+b2x2+b3x3+...bkxk

ここで、y は従属変数、x1, x2, x3, ..., xkk 個の独立変数、そして、b1, b2, b3, ..., bkk 個の回帰係数です。

xi の値を変化させると、それに対応する回帰係数 bi の符号に応じて、y の値も増加または減少します。

多重線形回帰では、選択した全ての独立変数を使って実際のデータを最も良く説明する k+1 次元の平面を求めます。

多重線形回帰は、パラメトリック検定です。すなわち、独立変数の値の集合が与えられると、その従属変数がとり得る値は回帰平面について正規分布に従い分散が等しいものと仮定されます。

 

2. 多重線形回帰を実行する

多重線形回帰を実行するには:

  1. ワークシートに適切なデータを入力または配置します。詳しくは、多重線形回帰のデータを配置するをご覧ください。

  2. レポートグラフを作成します。詳しくは、多重線形回帰のレポートグラフをご覧ください。

 

3. 多重線形回帰のデータを配置する

測定された従属変数のデータを1列に、それに対応する独立変数のデータを2列目以降の列に配置します。

 

4. 多重線形回帰オプションを設定する

多重線形回帰オプションを使うのは:

 

多重線形回帰オプションを変更するには:

  1. 検定オプションの変更後に検定を実行するに際して、検定の実行前にデータを選択しておきたい場合は、対象とするデータ列をポインターでドラッグしておきます。

  2. Analysis タブを選択します。

  3. SigmaStat グループの Tests ドロップダウンリストから Multiple Linear Regression を選択します。

  4. Options をクリックします。

    Options for Multiple Linear Regression ダイアログボックスに以下の4つのタブが表示されます:

    1. Assumption Checking:Assumption Checking タブをクリックすると、Normality (正規性)、Constant Variance (等分散性)、および Durbin-Watson オプションが表示されます。詳しくは、Options for Multiple Linear Regression: Assumption Checking をご覧ください。

    2. Residuals:Residuals タブをクリックすると、残差オプションが表示されます。詳しくは、Options for Multiple Linear Regression: Residuals をご覧ください。

    3. More Statistics:More Statistics タブをクリックすると、信頼区間、PRESS 予測誤差、および、標準化係数オプションが表示されます。詳しくは、Options for Multiple Linear Regression: More Statistics をご覧ください。

    4. Other Diagnostics:Other Diagnostics タブをクリックすると、Influence (影響力) 、Variance Inflation Factor、および、Power (検出力) のオプションが表示されます。詳しくは、Options for Multiple Linear Regression: Other Diagnostics をご覧ください。

  5. チェックボックスを選択して各検定オプションを有効または無効にします。SigmaPlot を次回以降起動するときは、ここで選択したオプションの内容が保持されます。詳しくは、多重線形回帰の結果を解釈するをご覧ください。

  6. 検定を続行するには、Run Test をクリックします。

  7. 現在の設定内容を適用して、オプションダイアログを閉じるには、OK をクリックします。

 

4.1 Options for Multiple Linear Regression: Assumption Checking

プションダイアログボックスから Assumption Checking タブを選択すると、NormalityConstant Variance、および、Durbin-Watson オプションが表示されます。これらのオプションは、お持ちのデータが回帰分析にふさわしいか否かを、そのデータについて多重線形回帰が行う3つの仮説をチェックすることによって検定するものです。多重線形回帰で仮定するのは:

デフォルトでは全ての Assumption Checking (前提条件のチェック) オプションが選択されています。これらのオプションは、使用するデータが等分散の正規分布に従っており、その残差が互いに独立であることが確実に分かっているときだけ無効にしてください。

Tip:この前提条件の検定では、非正規や等分散性でない母集団のデータ検出においてロバストな処理がなされますが、データ分布が極端な条件では検出できない場合があります。しかし、このような条件の場合は、前提条件の自動検定に頼らずにデータを視覚的に調べることで容易に検出することができます。

 

4.2 Options for Multiple Linear Regression: Residuals

プションダイアログボックスの Residuals タブを選択すると、Predicted Values, Raw, Standardized, Studentized, Studentized Deleted, および Report Flagged Values Only オプションが表示されます。

Tip:スチューデント化残差、および、スチューデント化削除残差はいずれも、同じ信頼区間の設定を使って外れ値を判定します。

 

4.3 Options for Multiple Linear Regression: More Statistics

オプションダイアログの More Statistics タブをクリックすると、信頼区間オプションが表示されます。母集団、回帰、または、両方の信頼区間を設定し、それらをワークシートに保存することができます。

 

4.4 Options for Multiple Linear Regression: Other Diagnostics

Options for Multiple Linear Regression ダイアログボックスの Other Diagnostics タブをクリックすると、Influence オプションが表示されます。Influence オプションは、影響力のあるデータポイントのインスタンスを自動的に検出するものです。影響力がもっとも強いポイントは、データポイントの外れ値です。すなわち、それ以外のデータポイントと一直線上に並ぼうとはしないものです。これらの点は、回帰直線の計算において極端に強い影響を及ぼす可能性があります。影響力のあるポイントを識別し定量化するための影響力の検定には、幾つかの種類が用意されています。

 

4.4.1 影響点の対処法

影響点には次の2つの原因があります:

データの収集や入力に誤りがあった場合は、その値を修正してください。修正する値がわからなければ、そのデータポイントの削除を判断できるかもしれません。モデルに誤りがあるようであれば、回帰の独立変数を変更するか、非線形回帰をお試しください。

 

4.4.2 多重共線性の対処法

標本に基づく多重共線性 (Sample-based multicollinearity) は、他の条件下でデータを多く収集して独立変数間の相関関係を無くすことで解消される場合があります。もし解消できなければ、その回帰方程式のパラメーターは過剰であることになり、単一または複数の独立変数を取り除くことで多重共線性を排除する必要があります。

構造的多重共線性 (structural multicollinearities) は、累乗や交互作用項ができる前に独立変数を中心化することによって解消することができます。

 

5. 多重線形回帰を実行する

多重線形回帰 (Multiple Linear Regression) を実行するには、検定するデータを選択する必要があります。検定ウィザードの Select Data パネルを使用して、検定したいデータを含むワークシートの列を選択します。

多重線形回帰を実行するには:

  1. 検定を実行する前にデータを選択したい場合は、データ範囲をマウスポインタでドラッグしておきます。

  2. Analysis タブをクリックします。

  3. SigmaStat グループの Tests ドロップダウンリストから以下を選択します:

    RegressionMultiple Linear

    検定ウィザードの Select Data パネルが表示されます。検定を選択する前に列を選択していれば、Selected Columns リストにその列が表示されます。列を選択していなければ、データ選択の指示がダイアログボックスに表示されます。

  4. Selected Columns リストに別のワークシート列を割り当てたい場合には、ワークシートで直接その列を選択するか、Data for Dependent または Data for Independent ドロップダウンリストからその列を選択します。

    Selected Columns リストの Dependent 行に割り当てられるのは最初に選択した列で、リストの Independent 行に2列目以降が割り当てられます。各行には、選択した列の番号またはタイトルが表示されます。 Independent 行には最大 64 列を選択できます。

  5. 選択した内容を変更するには、リストの割り当てを選択したあと、ワークシートから列を選択しなおします。Selected Columns リストの内容をダブルクリックすることによって、列の割り当てを消去することもできます。

  6. Finish をクリックすると、回帰が実行されます。正規性と等分散性、残差の独立性を検定するよう指定している場合、SigmaPlot は、正規性 (Shapiro-Wilk または Kolmogorov-Smirnov)、等分散性、残差の独立性を検定します。もしデータに関するこれらの検定のいずれかが棄却されると、SigmaPlot によりその旨が報告されます。検定が完了すると、Multiple Linear Regression の結果をあらわすレポートが表示されます。

    残差 (Residual) とその他の結果をワークシートに配置するよう選択している場合は、指定した列にそれらが配置され、それぞれラベルが付けられます。

 

6. 多重線形回帰の結果を解釈する

多重線形回帰のレポートには、方程式と算出された係数、R, R2、および、調整済み R2、従属変数の推定量に関する各種統計値のテーブル、および、回帰方程式と個々の係数の P 値が表示されます。

レポートに表示されるその他の結果は、Options for Linear Regression ダイアログボックスで有効または無効にすることができます。

 

結果の説明

数値による結果に加えて、拡張された結果の説明が表示されることがあります。この説明テキストは、Options ダイアログボックスで有効または無効にすることができます。表示される小数点以下の桁数についても Options ダイアログボックスで指定できます。

 

6.1 回帰方程式

係数の値が配置された方程式です。この方程式は以下の形式になります:

y=b0+b1x1+b2x2+b3x3+...bkxk

ここで、 y は従属変数、x1, x2, x3, ..., xk は独立変数、b1, b2, b3 ...bk は回帰係数です。

観測数 N、および、回帰から除外された欠損値を含む観測数 (もしある場合) も表示されます。

 

6.2 重相関係数 R、決定係数 R Squared、自由度調整済み決定係数 Adj R Squared

 

6.3 推定量の標準誤差

 

6.4 統計量のサマリーテーブル

これらの値は、回帰の t 値と信頼区間の計算に使用されます。

 

6.5 Beta (標準化係数 βi)

回帰方程式の係数を無次元の値に標準化したものです。

ここで、b1 = 回帰係数、sxi = 独立変数 xiの標準偏差、そして、 sy = 従属変数 y の標準偏差です。

この結果は、Regression Options ダイアログボックスで Standardized Coefficients オプションを無効にしない限り表示されます。

 

6.6 分散分析表

ANOVA テーブル (分散分析表) には、回帰の ANOVA 統計量と、それに対応する F 値が表示されます。

 

6.7 増分平方和

 

6.8 PRESS 統計量

 

6.9 Durbin-Watson 統計量

 

6.10 正規性検定

正規性検定 (Normality Test) の結果には、元になる母集団が回帰直線の周囲に正規分布しているという仮説の検定にそのデータが合格 (Passed) したか否か (failed)、および、この検定で算出される P 値が表示されます。いずれの回帰でも、元になる母集団が回帰直線の周囲に正規分布すると仮定します。正規性検定が棄却された場合は、レポートに警告が表示されます。この結果は、検定オプションのダイアログボックスで正規性検定を無効にしない限り表示されます。

正規性検定が棄却された場合は、影響力のある外れ値が存在するか、回帰モデルに誤りがある可能性があります。

 

6.11 等分散検定

等分散検定 (Constant Variance Test) の結果には、元になる母集団の従属変数のばらつきが独立変数の値にかかわらず一定であるという仮説の検定にそのデータが合格 (Passed) したか否か (failed)、およびこの検定で算出される P 値が表示されます。等分散検定が棄却された場合は、レポートに警告が表示されます。

等分散検定が棄却された場合、別のモデル (例えば、データの形状により近いモデル) の使用を検討するか、または、独立変数を変換してばらつきを安定化することでより精度の高い回帰方程式のパラメータ推定値を得ることを検討してください。

 

6.12 検出力

この結果は、オプションダイアログボックスでこのオプションを選択している場合に表示されます。回帰モデルの検出力 (Power)、すなわち感度は、推定する母集団に関連性がある場合、それらの関係をモデルが正しくあらわす確率です。

回帰モデルの検出力は、測定データの数、誤って差があるとレポートする危険率 (アルファ)、および回帰の傾きに影響を受けます。

 

6.13 回帰診断

回帰診断の結果には Options for Multiple Linear Regression ダイアログボックスで選択した予測値、残差、および、その他の診断結果のみが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付ける残差の値は、Options for Multiple Linear Regression ダイアログボックスで設定します。

Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされます。その観測データのその他の結果は全て表示されます。(※ v14 では Report flagged values only)

 

6.14 影響診断

影響診断の結果にはオプションダイアログボックスの Other Diagnostics タブで選択した結果の値だけが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付ける残差の値は、Options for Linear Regression ダイアログボックスの Other Diagnostics タブで設定します。

Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされます。その観測データのその他の結果も表示されます。(※ v14 では Report flagged values only)

 

6.15 信頼区間

これらの結果は、Options for Multiple Linear Regression ダイアログボックスで選択している場合に表示されます。信頼区間にゼロが含まれていなければ、指定した信頼水準でその係数はゼロではないと結論付けることができます。これは、 P < α (alpha) としても表現できます。ここで、α は、係数はゼロではないと誤って結論付けてもよしとする確率で、信頼区間は 100(1 - α) となります。

信頼水準は、1 から 99 までの任意の値を指定できます。提示される信頼水準はいずれの区間についても 95% です。

 

7. 多重線形回帰のレポートグラフ

多重線形回帰の結果を使用して、以下に示す最大6つのグラフを作成することができます:

 

7.1 多重線形回帰のレポートグラフを作成する

多重線形回帰データのレポートグラフを作成するには:

  1. Multiple Linear Regression レポートを表示した状態で、Report タブをクリックします。

  2. Result Graphs グループにある Create Result Graph をクリックします。

  3. Create Result Graph ダイアログボックスに Multiple Linear Regression の結果で使用できるグラフのタイプが表示されます。

  4. Graph Type リストから作成したいグラフのタイプを選択して、OK をクリックするか、リストから作成したいグラフをダブルクリックします。

    Scatter Plot Residuals, Bar Chart Std Residuals, Regression, Conf. & Pred を選択した場合、そのグラフに使用したい独立変数の列を選択するよう指示するダイアログボックスが表示されます。

    3D Scatter & Mesh, または 3D Residual Scatter を選択し、かつ、独立変数の列を複数選択している場合は、そのグラフに使用したい独立変数の2列を選択するよう指示するダイアログボックスが表示されます。

  5. グラフで使用したい独立変数を含む列を選択したら、OK をクリックします。指定した独立変数を使用したグラフが表示されます。詳しくは、レポートグラフをご覧ください。