23.6 段階的線形回帰
段階的線形回帰 (Stepwise Linear Regression) を使うのは:
- データに直線または平面 (超平面) を当てはめることで、その傾向を予測したいとき、すなわち、ある変数の値をそれとは別の単一または複数の変数の値から予測したいとき。
- 従属変数の予測にどの独立変数が寄与するか分からないので、方程式から独立変数を追加したり除外することによって、適切な独立変数のモデルを求めたいとき。
モデルに取り込む独立変数が既知の場合は、多重線形回帰 (Multiple Linear Regression) を使います。可能性のある全てのモデルから幾つかの最良の方程式を求めたい場合は、ベストサブセット回帰 (Best Subsets Regression) を使います。直線や平面ではない関係の場合は、多項式回帰または非線形回帰を使います。
- 段階的線形回帰について
- 段階的線形回帰を実行する
- 段階的線形回帰のデータを配置する
- 前進型段階的線形回帰オプションを設定する
- Options for Forward Stepwise Regression: Criterion
- Options for Forward Stepwise Regression: Assumption Checking
- 正規性と等分散性の P 値
- Options for Forward Stepwise Regression: Residuals
- Options for Forward Stepwise Regression: More Statistics
- Options for Forward Stepwise Regression: Other Diagnostics
- Variance Inflation Factor
- Power
- 後退型段階的線形回帰オプションを設定する
- Options for Backward Stepwise Regression: Criterion
- Options for Backward Stepwise Regression: Assumption Checking
- 正規性と等分散性の P 値
- Options for Backward Stepwise Regression: Residuals
- Options for Backward Stepwise Regression: More Statistics
- Options for Backward Stepwise Regression: Other Diagnostics
- Variance Inflation Factor
- Power
- 段階的線形回帰を実行する
- 段階的回帰の結果を解釈する
- F-to-Enter, F-to-Remove
- ステップ番号
- 分散分析表
- Variables in Model
- Variables not in Model
- PRESS 統計量
- Durbin-Watson 統計量
- 正規性検定
- 等分散検定
- 検出力
- 回帰診断
- 影響診断
- 信頼区間
- 段階的回帰のレポートグラフ
- 段階的回帰のレポートグラフを作成する
1. 段階的線形回帰について
段階的回帰 (Stepwise Regression) は、多重線形回帰 (Multiple Linear Regression) の方程式の独立変数を候補となる幾つかの変数リストの中から選ぶ手法です。多重線形回帰の代わりに段階的回帰を使うと、無用な変数の使用、すなわち、モデル定義における過不足を回避することができます。
段階的回帰では、単一または複数の独立変数と従属変数の関係が、次式の多次元平面をあらわす一般方程式であてはめられることが仮定されます。
y=b0+b1x1+b2x2+b3x3+ ... bkxk
ここで、y は従属変数、x1, x2, x3, ..., xk は独立変数、b0, b1, b2, ... , bk は回帰係数です。独立変数は、既知の変数、すなわち予測変数です。xi の値が変化すると、それに伴って対応する y の値も bi のとる符号に応じて増加または減少します。段階的回帰は、選択した独立変数を方程式から追加または除外することによってどの独立変数を使用するかを決定します。
段階的回帰には次の2つのアプローチがあります:
- Forward Stepwise Regression (前進型段階的回帰):前進型段階的回帰では、まずはじめに従属変数を最も良く予測する独立変数 (指定した F-to-Enter 値より F 値が大きい独立変数) を方程式に追加し、その後、2番目に情報量の大きい独立変数を追加していくという具合で進められます。各変数を投入したら、その都度、既に方程式に投入されている変数の F 値がチェックされ、その変数の F 値が小さければ (指定した F-to-Remove 値より小さければ)、それは除外されます。このプロセスは、変数の追加や削除で従属変数の予測が有意に改善しなくなるまで繰り返します。
- Backward Stepwise Regression (後退型段階的回帰):後退型段階的回帰では、全ての変数が方程式に投入されます。予測の寄与が最も少ない独立変数 (指定した F-to-Remove 値より F 値が小さい独立変数) を方程式から除外し、続いて、2番目に重要でない独立変数を除外するという具合で進められます。各変数を除外したら、その都度、方程式から除外した変数の F 値がチェックされ、その変数の F 値が大きければ (指定した F-to-Enter 値より大きければ) それは方程式に戻されます。このプロセスは、変数の追加や削除で従属変数の予測が有意に改善しなくなるまで繰り返します。
※ Note:同一の変数候補を使う前進型と後退型の段階的回帰では、独立変数の候補の間に多重共線性があれば同じ回帰モデルが最終的に得られるとは限りません。 |
2. 段階的線形回帰を実行する
段階的線形回帰 (Stepwise Linear Regression) を実行するには:
- ワークシートに適切なデータを入力または配置します。詳しくは、段階的線形回帰のデータを配置するをご覧ください。
- 必要があれば、Stepwise Regression オプションを設定します。
- Analysis タブをクリックします。
- SigmaStat グループにある Tests ドロップダウンリストから以下を選択します:
Regression → Stepwise → Forward
または
Regression → Stepwise → Backward
- 検定を実行します。
- レポートグラフを作成します。詳しくは、段階的回帰のレポートグラフをご覧ください。
3. 段階的線形回帰のデータを配置する
段階的線形回帰のデータフォーマットは、独立変数のデータを単一または複数列に、それに対応する観測された従属変数のデータを1列に配置して構成します。欠損値を含む観測データは無視されます。また、全ての列は長さを等しくする必要があります。
4. 前進型段階的線形回帰オプションを設定する
段階的回帰オプションを使用するのは:
- 前進型または後退型の段階的回帰の実行で、回帰方程式に投入したり、置き換え、削除、除外する独立変数を指定するとき。
- 段階的アルゴリズムが停止するまでに許容するステップ数を設定するとき。
- 前提条件のチェックオプションを設定するとき。
- 残差を表示したりそれらをワークシートに保存するとき。
- 信頼区間のオプションを設定するとき。
- PRESS 統計誤差を表示するとき。
- 標準化回帰係数を表示するとき。
- 回帰の検出力を表示するとき。
前進型段階的回帰オプションを変更するには:
- 検定オプションの変更後に検定を実行するに際して、検定の実行前にデータを選択しておきたい場合は、対象とするデータ列をポインターでドラッグしておきます。
- Analysis タブの SigmaStat グループにある Select Test ドロップダウンリストから Forward Stepwise Regression を選択します。
- Options をクリックします。
Options for Forward Stepwise Regression ダイアログボックスに以下の5つのタブが表示されます。
- Criterion:Criterion タブをクリックすると、F-to-Enter, F-to-Remove, および
Number of Steps オプションが表示されます。詳しくは、Options for Forward
Stepwise Regression: Criterion をご覧ください。
- Assumption Checking:Assumption Checking タブをクリックすると、Normality,
Constant Variance, および Durbin-Watson オプションが表示されます。詳しくは、Options for Forward Stepwise Regression: Assumption Checking をご覧ください。
- Residuals:Residuals タブをクリックすると、各種残差オプションが表示されます。詳しくは、Options for Forward Stepwise Regression: Residuals をご覧ください。
- More Statistics:More Statistics タブをクリックすると、confidence intervals, PRESS
Prediction Error, Standardized Coefficients オプションが表示されます。詳しくは、Options for Forward Stepwise Regression: More Statistics をご覧ください。
- Other Diagnostics:Other Diagnostics タブをクリックすると、検出力オプションが表示されます。詳しくは、Options for Forward Stepwise Regression: Other Diagnostics をご覧ください。
オプションの設定内容は SigmaPlot を次回起動したときも保持されます。
- 検定を続行するには、Run Test をクリックします。
- 現在の設定内容を適用して、オプションダイアログを閉じるには、OK をクリックします。
4.1 Options for Forward Stepwise Regression: Criterion
オプションダイアログボックスから Criterion タブをクリックすると、F-to-Enter, F-to-Remove, および Number of Steps オプションが表示されます。これらのオプションを使って、段階的回帰の実行で回帰方程式に投入したり、置き換え、削除、除外する独立変数を指定したり、段階的アルゴリズムの停止条件を指定することができます。
- F-to-Enter 値:F-to-Enter 値は、前進型段階的回帰で回帰方程式に投入する独立変数、または、後退型段階的回帰で段階ごとに置き換える独立変数を制御します。
F-to-Enter 値は、ある独立変数を回帰方程式に投入する前の F 値の最小増分です。F 値の増分が F-to-Enter 値より大きい独立変数は、いずれもモデルに追加されます。
提示される F-to-Enter 値は 4.0 です。F-to-Enter 値を大きくすると、回帰方程式の従属変数の予測能力の改善に関して、候補となる独立変数にそれだけ大きな効果のあることが要求されますが、極端に早く停止したり、重要な変数が除外される可能性もあります。
※ Tip:回帰モデルの内部と外部で変数が循環するのを防ぐために F-to-Enter 値は、F-to-Remove 値よりも常に大きいか等しくある必要があります。 |
F-to-Enter 値を小さくすると、受け入れに必要な変数の重要性がそれだけ緩和されるので、変数が加わり易くなりますが、冗長な変数になったり、多重共線性になる可能性があります。
※ Note:後退型の段階的回帰を実行する場合、既に除外した変数を削除したままにしておきたい場合は、F-to-Enter の値を、たとえば、100000 のような大きな値にします。 |
- F-to-Remove 値:F-to-Remove 値は、後退型段階的回帰で回帰方程式から削除する独立変数、または、前進型段階的回帰で段階ごとに削除する独立変数を制御します。
F-to-Remove は、ある独立変数を回帰方程式から除外する前の F 値の最大増分です。F 値の増分が F-to-Remove 値より小さな独立変数は、いずれもモデルから除外されます。
提示される F-to-Remove 値は 3.9 です。F-to-Remove 値を小さくすると、従属変数を予測する回帰方程式の能力に関して、ある変数にそれだけ影響力が無くても受け入れられますので、そのような変数であっても回帰方程式に残り易くなります。ただし、その回帰には冗長な変数も残ることになりますので、多重共線性がもたらされる結果になります。
※ Remember:回帰モデルの内部と外部で変数が循環するのを防ぐために F-to-Remove 値は、F-to-Enter 値よりも常に小さいか等しくする必要があります。 |
F-to-Remove 値を大きくすると、高い予測値を含む変数も削除されますので、その方程式からそれだけ変数が削除され易くなりますが、その反面、重要な変数も削除されてしまいます。
※ Tip:前進型の段階的回帰を実行する場合、既に投入したいずれの変数も方程式に残しておきたい場合は、 F-to-Remove の値をゼロに設定します。 |
- Number of Steps:段階的アルゴリズムの停止に至るまでのステップ数を設定するにはこのオプションを使います。なお、ステップ数の超過によりアルゴリズムが停止した場合、その結果を信用することは殆どできません。提示される独立変数を追加または削除するステップ数は 20 です。
4.2 Options for Forward Stepwise Regression: Assumption Checking
オプションダイアログボックスの Assumption Checking タブをクリックすると、Normality, Constant Variance, および Durbin-Watson オプションが表示されます。これらのオプションは、段階的線形回帰がそのデータについて行う3つの仮説をチェックすることによってお持ちのデータが回帰分析に適合しているかを検定します。段階的線形回帰で仮定するのは:
- 元の母集団がその回帰について正規分布していること。
- 元の母集団の従属変数の分散が独立変数の値 (複数可) とは無関係に一定であること。
- 残差が互いに独立していること。
デフォルトでは全ての Assumption Checking (前提条件のチェック) オプションが選択されています。これらのオプションは、使用するデータが等分散の正規分布に従っており、その残差が互いに独立であることが確実に分かっているときだけ無効にしてください。
- Normality の検定:SigmaPlot では、母集団の分布の正規性検定に Shapiro-Wilk または Kolmogorov-Smirnov のいずれかを使用します。
- Constant Variance Testing (等分散性の検定):SigmaPlot では、等分散性の検定に残差の絶対値と観測された従属変数の値との間のスピアマンの順位相関 (Spearman rank correlation) を計算します。この相関関係が有意であれば等分散性の前提条件は棄却されますので、その場合は、別モデル (例えば、データの形状により密接に従うようなモデル) での試行を検討するか、単一または複数の独立変数の分散安定化の変換を行う必要があります。
4.2.1 正規性と等分散性の P 値
- P 値は、データが正規分布に従っていないと誤って結論付けてしまう確率を決定します (そのデータは正規分布に従っているという帰無仮説を誤って棄却してしまうリスクが P 値です)。ここで設定した P 値よりも、検定で算出された P 値が大きければ検定は採択 (Pass) されます。
正規性と等分散のいずれかまたは両方の要件をより厳密なものにするには、この P 値を大きくします。パラメトリックな統計手法では、仮説の棄却が比較的ロバスト (頑健) に検出されることから、SigmaPlot ではこの値を 0.05 としています。P 値をこれよりも大きくすると (例えば、0.10)、そのデータに正規性がないとの判定が出やすくなります。
正規性と等分散のいずれか又は両方の要件を緩和するには、P 値を小さくします。正規性があるという仮説を棄却するための P 値に小さい値しか要求しないということは、前提とする正規分布からデータが外れていても、それが非正規であると判定される前に、それだけ広く受け入れたいとする意思があることを意味します。例えば、P 値を 0.01 とした場合、あるデータを非正規であると判定するには、0.05 の場合と比べてそれだけ大きく正規性を逸脱していなければなりません。
※ Note:この前提条件の検定では、非正規や等分散性でない母集団のデータ検出においてロバストな処理がなされますが、データ分布が極端な条件では検出できない場合があります。しかし、このような条件の場合は、前提条件の自動検定に頼らずにデータを視覚的に調べることで容易に検出することができます。 |
- Durbin-Watson 統計量: SigmaPlot では、残差が互いに独立していることを検定するのに Durbin-Watson 統計量を使用します。Durbin-Watson 統計量は、残差間の系列相関を測定するものです。この残差は、多くの場合、独立変数が時間で、かつ、観測値と回帰直線との間のある時点のずれが、前の時点におけるずれと関連性がある場合に相関します。残差間に相関性がない場合、Durbin-Watson 統計量は 2 になります。
- Difference from 2 の値:系列相関の根拠とみなす 2.0 からの許容できるずれを Difference from 2.0 ボックスに入力します。算出される 2.0 からのずれである Durbin-Watson 統計量が入力した値より大きければ、残差に独立性がない可能性があることが SigmaPlot によって警告されます。例えば、このずれの値を提示された値 0.50 にすると、Durbin-Watson 統計量の値が 2.5 より大きいか、1.5 より小さい場合に残差に相関性があるというフラッグが立てられます。
独立性の条件を厳しくするには、difference from 2.0 の値を小さくします。
独立性の条件を緩和するには、difference from 2.0 の値を大きくします。
4.3 Options for Forward Stepwise Regression: Residuals
オプションダイアログボックスの Residuals タブをクリックすると、Predicted Values, Raw, Standardized, Studentized, Studentized Deleted, および Report Flagged Values Only オプションが表示されます。
- Predicted Values (予測値):このオプションを使用すると、独立変数の観測値ごとに従属変数の予測値が計算され、その結果がワークシートに保存されます。予測値をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。
予測値をワークシートの列に配置するには、対応するドロップダウンリストから配置先の列番号を選択します。ドロップダウンリストで none を選択し、Predicted Values チェックボックスが選択されている場合は、レポートにはその値が表示されますが、ワークシートには配置されません。
- Raw Residuals (生の残差):生の残差は、従属変数に関する予測値と観測値の差です。生の残差をレポートに含めるには、このチェックボックスが選択されているかを確認してください。生の残差をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。
生の残差をワークシートの列に配置するには、対応するドロップダウンリストから配置先の列番号を選択します。ドロップダウンリストで none を選択し、Raw チェックボックスが選択されている場合は、レポートにはその値が表示されますが、ワークシートには配置されません。
- Standardized Residuals (標準化残差):標準化残差は、残差をその推定量の標準誤差で割ったものです。残差の標準誤差は、要するに残差の標準偏差ですので、回帰直線周辺のばらつきの尺度となります。標準化残差をレポートに含めるには、このチェックボックスが選択されていることを確認してください。標準化残差をワークシートに含めるには、このチェックボックスを選択してください。
SigmaPlot は、対応するボックスで指定した信頼区間から外れたデータポイントに対して自動的にフラッグを立てます。例えば、データポイントの中心から外れたデータポイントは、標準化残差の値が「大きい」と判断されます。フラッグを立てるデータポイントは、Flag Values > 編集ボックスの値を編集することで変更することができます。
- Studentized Residuals (スチューデント化残差):スチューデント化残差は、データの両極値に対する中央付近の回帰直線の精度の高さを考慮に入れることによって残差を基準化するものです。スチューデント化残差は、スチューデントの t 分布に従う傾向がありますので、 t 分布を利用してスチューデント化残差の大きい値を決定することができます。SigmaPlot は、例えば、データポイントの中心から外れたデータポイントに対しては、スチューデント化残差の値が「大きい」というフラッグを自動的に立てます。フラッグで提示されるデータポイントは、回帰母集団の95%信頼区間の外側にあります。
スチューデント化残差をレポートに含めるには Studentized Residuals を選択します。スチューデント化残差をワークシートに含めたくない場合は、チェックボックスを外します。
- Studentized Deleted Residuals (スチューデント化削除残差): スチューデント化削除残差は、スチューデント化残差に似ていますが、該当するデータポイントを使わずに、回帰方程式を計算することで値を求める点が異なります。
スチューデント化削除残差をレポートに含めるには、このチェックボックスを選択します。スチューデント化削除残差をワークシートに含めたくない場合は、このチェックボックスを外します。
SigmaPlot は、例えば、データポイントの中心から外れたデータポイントに対しては、スチューデント化削除残差の値が「大きい」というフラッグを自動的に立てます。フラッグで提示されるデータポイントは、回帰母集団の95%信頼区間の外側にあります。
※ Note:スチューデント化残差、および、スチューデント化削除残差はいずれも、同じ信頼区間の設定を使って外れ値を判定します。 |
- Report Flagged Values Only (フラッグ値のみレポートする):レポートにフラッグの立てられた標準化、および、スチューデント化削除残差しか含めない場合は、Report Flagged Values Only を選択してください。このオプションを解除すると、全ての標準化およびスチューデント化残差がレポートにが含まれます。
4.4 Options for Forward Stepwise Regression: More Statistics
オプションダイアログの More Statistics タブをクリックすると、信頼区間オプションが表示されます。母集団、回帰、または、両方の信頼区間を設定し、それらをワークシートに保存することができます。
- Confidence Interval for the Population:母集団の信頼区間では、観測データを抽出した母集団が含まれる領域を定義する値の範囲を与えます。
母集団の信頼区間をレポートに含めるには、Population チェックボックスを選択します。母集団の信頼区間をレポートに含めたくない場合は、このチェックボックスを解除します。
- Confidence Interval for the Regression:回帰直線の信頼区間は、指定した信頼水準で従属変数と独立変数の間に真の平均値の関係が含まれる領域がこの値の範囲によって定義されます。
レポートに回帰の信頼区間を含めるには、Regression チェックボックスが選択されているかを確認し、パーセントボックスに信頼水準の値を入力して指定してください。信頼水準は 1 から 99 までの任意の値にすることができます。提示される区間の信頼水準はいずれも 95 % です。レポートに母集団の信頼区間を含めたくない場合は、選択されたチェックボックスを解除してください。
- 信頼区間をワークシートに保存する。信頼区間をワークシートに保存するには、Starting in Column ドロップダウンリストから区間データを保存したい最初の列の列番号を選択します。ワークシートの指定した列以降に選択した区間データが保存されます。
- PRESS Prediction Error (PRESS 予測誤差):PRESS 予測誤差は、回帰方程式がデータにどれだけ良くあてはまっているかを測る尺度です。このチェックボックスを選択した状態にしておけば、PRESS 統計量を用いて方程式の当てはめが評価されます。レポートに PRESS 統計量を含めたくなければ、選択されているこのチェックボックスを解除します。
- Standardized Coefficients (標準化係数):回帰方程式の係数を無次元の値に標準化したものです。
ここで、bi = 回帰係数、sxi= 独立変数 xi の標準偏差、そして、 sy = 従属変数 y の標準偏差です。
レポートに標準化係数を含めるには、Standardized Coefficients を選択します。標準化係数をワークシートに含めたくない場合は、このオプションを解除します。
4.5 Options for Forward Stepwise Regression: Other Diagnostics
オプションダイアログボックスの Other Diagnostics タブをクリックすると、Influence, Variance Inflation Factor および Power オプションが表示されます。Other Diagnostic が隠れている場合は、タブの右側にある右向きの矢印をクリックして表示圏内に移動します。左向きの矢印を使えば、その他のタブを表示圏内に戻すことができます。
Influence オプションは、影響力のあるデータポイントのインスタンスを自動的に検出するものです。影響力がもっとも強いポイントは、データポイントの外れ値です。すなわち、それ以外のデータポイントと一直線上に並ぼうとはしないものです。これらの点は、回帰直線の計算において極端に強い影響を及ぼす可能性があります。影響力のあるポイントを識別し定量化するための影響力の検定には、幾つかの種類が用意されています。
- DFFITS :DFFITSi は、データセットの中から i 番目のデータポイントを除外したときに変化する予測値の標準誤差を見積る数です。あるデータポイントの予測値に対する影響力を測るもうひとつの尺度で、回帰係数を計算するのに使用します。
データポイントを除外したとき、その予測値の変化の標準誤差が2以上であれば影響力ありと判断されます。
DFFITS チェックボックスを選択すると、全てのポイントについて DFFITS 値を計算し、影響力のある点、例えば、DFFITS の値が Flag Values > 編集ボックスで指定した値よりも大きい値には、フラッグが立てられます。データの中で影響力が大きい点であることをあらわす標準誤差として提示される値は 2.0 です。影響力のある点として余分なフラッグを立てないようにするには、この値を高くします。影響力のより小さなポイントにフラッグを立てるには、この値を低くします。
- Leverage (てこ比) :Leverage (てこ比) は、あるポイントが回帰方程式の結果に対して影響力をもつ可能性があるか否かを判断するのに使用します。てこ比は、独立変数 (複数可) の値のみに依存します。観測値のてこ比が高ければ、その独立変数は両極値にある傾向があります。そこでは、独立変数の小さな変化が従属変数の予測値に大きな影響を及ぼす可能性があります。
データポイントのてこ比の期待値は次式であらわされます:
ここで、k は独立変数の数、n はデータポイントの数です。観測データのレバレッジが期待されるレバレッジより大きい場合は、その点に影響力がある疑いがあります。
Leverage チェックボックスを選択すると、ポイント毎のてこ比を計算し、影響力の疑いのある点、例えば、期待されるてこ比が指定した倍数より大きいものであれば自動的にフラッグが付けられます。提示される値は、その回帰に期待されるてこ比の 2.0 倍です。例えば、
影響力の疑いがある点として余分なフラッグを立てないようにするには、この値を高くします。影響力の小さなポイントにフラッグを立てるには、この値を低くします。
- Cook's Distance (クックの距離):クックの距離は、回帰方程式のパラメータ推定値に対して各ポイントの影響力がいかに大きいかを測る尺度です。クックの距離は、ある点を分析から除外したときに回帰係数の値がどれだけ変化するかを評価します。クックの距離は、独立変数と従属変数の両方の値に依存します。
全てのポイントに対してこの値を計算し、影響力のあるポイント、例えば、指定値よりもクックの距離の値が大きいポイントに対してフラッグを立てるようにするには、Cook's Distance チェックボックスを選択します。提示される値は 4.0 です。クックの距離が 1 より大きければ、その点に影響力が存在する可能性があることを示します。クックの距離が 4 より大きければ、その点はパラメータの推定値に対して大きな影響力があることを示します。影響力のある点として余分なフラッグを立てないようにするには、この値を高くします。影響力の小さなポイントにフラッグを立てるには、この値を低くします。
- Report Flagged Values Only (フラッグを立てた値のみレポートする) :影響力ポイント検定でフラッグが立てられた影響力のポイントだけをレポートに含める場合は、Report Flagged Values Only を選択します。このオプションを解除すると影響力のある全てのポイントがレポートに含まれることになります。
4.5.1 Variance Inflation Factor
- Variance Inflation Factor オプションは、独立変数の多重共線性 (multicollinearity) 、すなわち、独立変数のあてはめにおける線形結合を測定するものです。
回帰プロシージャーでは、独立変数は統計的に互いに独立であることが仮定されます。例えば、ある独立変数の値が他の独立変数の値に影響を及ぼすことはありません。しかし、このような理想的な状況が現実の世界で起こることはまれです。独立変数が相関関係にある場合、すなわち、冗長な情報が含まれている場合、その回帰モデルのパラメータ推定値は、信頼できないものになる可能性があります。
回帰モデルのパラメータは、各独立変数の固有の寄与を理論的に数値化して従属変数を予測します。もし独立変数どうしに相関関係があれば、それらの間には共通する何らかの情報が含まれているので、パラメータの推定値が「汚染」されることになります。この多重共線性 (multicollinearity) が高ければそのパラメーターの推定値は信頼できないものになります。
多重共線性 (multicollinearity) には以下の2つのタイプがあります:
- Structural Multicollinearity (構造的多重共線性):構造的多重共線性が生じるのは、回帰方程式に互いに影響を及ぼしあう複数の独立変数が含まれている場合です。構造的多重共線性が生じる最も一般的な形式は、多項式回帰方程式の独立変数が幾つかの累乗 (power) になっている場合です。このような累乗 (例えば、x, x2, ... など) には互いに相関関係があるので構造的多重共線性が生じます。回帰方程式に交互作用項を含める場合も、構造的多重共線性が生じることがあります。
- Sample-Based Multicollinearity (標本に基づく多重共線性):標本に基づく多重共線性が生じるのは、独立変数が相関するような方法で標本となる観測データが収集されている場合です (例えば、年齢の異なる児童に関して年齢、身長、および、体重を収集したとすれば、各変数の間には互いに相関関係があります)。
SigmaPlot では、VIF (Variance inflation factor) を使って多重共線性のある独立変数を自動的に検出することができます。オプションダイアログボックスの Other Diagnostics タブをクリックすると、Variance Inflation Factor オプションが表示されます。(※実際には表示されない)
- 多重共線性のデータにフラッグを付ける:Flag Values > 編集ボックスの値を多重共線性変数の閾値として使います。デフォルトの閾値は 4.0 で、これは、4.0 より大きい値はいずれも多重共線性としてフラッグが付くことを意味します。この多重共線性の検出をより敏感にするには、この値を小さくします。そのデータに多重共線性があるというフラッグが付く前に、独立変数の相関関係を許容する範囲を広げるには、この値を大きくします。
VIF ( variance inflation factor) が大きければ、その回帰モデルに余分な変数が存在することになり、パラメータ推定値が信頼できないものになります。VIF ( variance inflation factor) の値が 4 より大きければ、多重共線性の可能性が提示されます。この値が 10 より大きければ、多重共線性が深刻であることをあらわします。
- 多重共線性の対処法:標本に基づく多重共線性 (Sample-based multicollinearity) は、他の条件下でデータを多く収集して独立変数間の相関関係を無くすことで解消される場合があります。もし解消できなければ、その回帰方程式のパラメーターは過剰であることになり、単一または複数の独立変数を取り除くことで多重共線性を排除する必要があります。
構造的多重共線性 (structural multicollinearities) は、累乗や交互作用項ができる前に独立変数を中心化することによって解消することができます。
- Report Flagged Values Only (フラッグを立てた値のみレポートする) :影響力ポイント検定でフラッグが立てられた影響力のポイントだけをレポートに含める場合は、Report Flagged Values Only を選択します。このオプションを解除すると影響力のある全てのポイントがレポートに含まれることになります。
4.5.2 Power
オプションダイアログボックスの Other Diagnostics タブをクリックすると、Power オプションが表示されます。Other Diagnostic が隠れている場合は、タブの右側にある右向きの矢印をクリックして表示圏内に移動します。左向きの矢印を使えば、その他のタブを表示圏内に戻すことができます。
- 回帰の検出力は、観測されたデータの中に関係性を検出する能力です。アルファ (α) は誤って関係ありと判断されることを許容する確率です。
段階的線形回帰データの検出力を計算するには、Power チェックボックスを選択します。アルファ値を変更するには、Alpha Value 編集ボックスの数値を編集します。提示される値は α = 0.05 です。この設定は、誤りを許容する確率が 20分の1であることを示します。すなわち、P < 0.05 であれば有意な関係があると判断できることになります。
アルファの値を小さくすると、有意な関係があると結論付ける要件がそれだけ厳格なものになりますが、関係があるにもかかわらず関係がないと結論付ける可能性が高くなります。アルファの値を大きくすると、関係があるとの結論付けが容易になりますが、それだけ誤判定をレポートする危険性が高くなります。
5. 後退型段階的線形回帰オプションを設定する
後退型段階的線形回帰 (Backward Stepwise Regression) オプションを使用するのは:
- 前進型または後退型の段階的回帰の実行で、回帰方程式に投入したり、置き換え、削除、除外する独立変数を指定するとき。
- 段階的アルゴリズムが停止するまでに許容するステップ数を設定するとき。
- 前提条件のチェックオプションを設定するとき。
- 残差を表示したりそれらをワークシートに保存するとき。
- 信頼区間のオプションを設定するとき。
- PRESS 統計誤差を表示するとき。
- 標準化回帰係数を表示するとき。
- 回帰の検出力を表示するとき。
後退型段階的回帰オプションを変更するには:
- 検定オプションの変更後に検定を実行するに際して、検定の実行前にデータを選択しておきたい場合は、対象とするデータ列をポインターでドラッグしておきます。
- Analysis タブの SigmaStat グループにある Select Test ドロップダウンリストから Backward Stepwise Regression を選択します。
- Options をクリックします。Options for Backward Stepwise Regression ダイアログボックスに以下の5つのタブが表示されます。
- Criterion:Criterion タブをクリックすると、F-to-Enter, F-to-Remove, および Number of Steps オプションが表示されます。詳しくは、Options for Backward
Stepwise Regression: Criterion をご覧ください。
- Assumption Checking:Assumption Checking タブをクリックすると、Normality, Constant Variance, および Durbin-Watson オプションが表示されます。詳しくは、Options for Backward Stepwise Regression: Assumption Checking をご覧ください。
- Residuals:Residuals タブをクリックすると、各種残差オプションが表示されます。詳しくは、Options for Backward Stepwise Regression: Residuals をご覧ください。
- More Statistics:More Statistics タブをクリックすると、confidence intervals, PRESS Prediction Error, Standardized Coefficients オプションが表示されます。詳しくは、Options for Backward Stepwise Regression: More Statistics をご覧ください。
- Other Diagnostics:Other Diagnostics タブをクリックすると、検出力オプションが表示されます。詳しくは、Options for Backward Stepwise Regression: Other
Diagnostics をご覧ください。
オプションの設定内容は SigmaPlot を次回起動したときも保持されます。
- 検定を続行するには、Run Test をクリックします。
- 現在の設定内容を適用して、オプションダイアログを閉じるには、OK をクリックします。
5.1 Options for Backward Stepwise Regression: Criterion
オプションダイアログボックスから Criterion タブをクリックすると、F-to-Enter, F-to-Remove, および Number of Steps オプションが表示されます。これらのオプションを使って、段階的回帰の実行で回帰方程式に投入したり、置き換え、削除、除外する独立変数を指定したり、段階的アルゴリズムの停止条件を指定することができます。
- F-to-Enter 値:F-to-Enter 値は、前進型段階的回帰で回帰方程式に投入する独立変数、または、後退型段階的回帰で段階ごとに置き換える独立変数を制御します。
F-to-Enter 値は、ある独立変数を回帰方程式に投入する前の F 値の最小増分です。F 値の増分が F-to-Enter 値より大きい独立変数は、いずれもモデルに追加されます。
提示される F-to-Enter 値は 4.0 です。F-to-Enter 値を大きくすると、回帰方程式の従属変数の予測能力の改善に関して、候補となる独立変数にそれだけ大きな効果のあることが要求されますが、極端に早く停止したり、重要な変数が除外される可能性もあります。
※ Remember:回帰モデルの内部と外部で変数が循環するのを防ぐために F-to-Enter 値は、F-to-Remove 値よりも常に大きいか等しくある必要があります。 |
F-to-Enter 値を小さくすると、受け入れに必要な変数の重要性がそれだけ緩和されるので、変数が加わり易くなりますが、冗長な変数になったり、多重共線性になる可能性があります。
※ Tip:後退型の段階的回帰を実行する場合、既に除外した変数を削除したままにしておきたい場合は、F-to-Enter の値を、たとえば、100000 のような大きな値にします。 |
- F-to-Remove 値:F-to-Remove 値は、後退型段階的回帰で回帰方程式から削除する独立変数、または、前進型段階的回帰で段階ごとに削除する独立変数を制御します。
F-to-Remove は、ある独立変数を回帰方程式から除外する前の F 値の最大増分です。F 値の増分が F-to-Remove 値より小さな独立変数は、いずれもモデルから除外されます。
提示される F-to-Remove 値は 3.9 です。F-to-Remove 値を小さくすると、従属変数を予測する回帰方程式の能力に関して、ある変数にそれだけ影響力が無くても受け入れられますので、そのような変数であっても回帰方程式に残り易くなります。ただし、その回帰には冗長な変数も残ることになりますので、多重共線性がもたらされる結果になります。
※ Remember:回帰モデルの内部と外部で変数が循環するのを防ぐために F-to-Remove 値は、F-to-Enter 値よりも常に小さいか等しくする必要があります。 |
F-to-Remove 値を大きくすると、高い予測値を含む変数も削除されますので、その方程式からそれだけ変数が削除され易くなりますが、その反面、重要な変数も削除されてしまいます。
※ Tip:後退型の段階的回帰を実行する場合、既に投入したいずれの変数も方程式に残しておきたい場合は、 F-to-Remove の値をゼロに設定します。 |
- Number of Steps:段階的アルゴリズムの停止に至るまでのステップ数を設定するにはこのオプションを使います。なお、ステップ数の超過によりアルゴリズムが停止した場合、その結果を信用することは殆どできません。提示される独立変数を追加または削除するステップ数は 20 です。
5.2 Options for Backward Stepwise Regression: Assumption Checking
オプションダイアログボックスの Assumption Checking タブをクリックすると、Normality, Constant Variance, および Durbin-Watson オプションが表示されます。これらのオプションは、段階的線形回帰がそのデータについて行う3つの仮説をチェックすることによってお持ちのデータが回帰分析に適合しているかを検定します。段階的線形回帰で仮定するのは:
- 元の母集団がその回帰について正規分布していること。
- 元の母集団の従属変数の分散が独立変数の値 (複数可) とは無関係に一定であること。
- 残差が互いに独立していること。
デフォルトでは全ての Assumption Checking (前提条件のチェック) オプションが選択されています。これらのオプションは、使用するデータが等分散の正規分布に従っており、その残差が互いに独立であることが確実に分かっているときだけ無効にしてください。
- Normality の検定:SigmaPlot では、母集団の分布の正規性検定に Shapiro-Wilk または Kolmogorov-Smirnov のいずれかを使用します。
- Constant Variance Testing (等分散性の検定):SigmaPlot では、等分散性の検定に残差の絶対値と観測された従属変数の値との間のスピアマンの順位相関 (Spearman rank correlation) を計算します。この相関関係が有意であれば等分散性の前提条件は棄却されますので、その場合は、別モデル (例えば、データの形状により密接に従うようなモデル) での試行を検討するか、単一または複数の独立変数の分散安定化の変換を行う必要があります。
5.2.1 正規性と等分散性の P 値
- P 値は、データが正規分布に従っていないと誤って結論付けてしまう確率を決定します (そのデータは正規分布に従っているという帰無仮説を誤って棄却してしまうリスクが P 値です)。ここで設定した P 値よりも、検定で算出された P 値が大きければ検定は採択 (Pass) されます。
正規性と等分散のいずれかまたは両方の要件をより厳密なものにするには、この P 値を大きくします。パラメトリックな統計手法では、仮説の棄却が比較的ロバスト (頑健) に検出されることから、SigmaPlot ではこの値を 0.05 としています。P 値をこれよりも大きくすると (例えば、0.10)、そのデータに正規性がないとの判定が出やすくなります。
正規性と等分散のいずれか又は両方の要件を緩和するには、P 値を小さくします。正規性があるという仮説を棄却するための P 値に小さい値しか要求しないということは、前提とする正規分布からデータが外れていても、それが非正規であると判定される前に、それだけ広く受け入れたいとする意思があることを意味します。例えば、P 値を 0.01 とした場合、あるデータを非正規であると判定するには、0.05 の場合と比べてそれだけ大きく正規性を逸脱していなければなりません。
※ Note:この前提条件の検定では、非正規や等分散性でない母集団のデータ検出においてロバストな処理がなされますが、データ分布が極端な条件では検出できない場合があります。しかし、このような条件の場合は、前提条件の自動検定に頼らずにデータを視覚的に調べることで容易に検出することができます。 |
- Durbin-Watson 統計量: SigmaPlot では、残差が互いに独立していることを検定するのに Durbin-Watson 統計量を使用します。Durbin-Watson 統計量は、残差間の系列相関を測定するものです。この残差は、多くの場合、独立変数が時間で、かつ、観測値と回帰直線との間のある時点のずれが、前の時点におけるずれと関連性がある場合に相関します。残差間に相関性がない場合、Durbin-Watson 統計量は 2 になります。
- Difference from 2 の値:系列相関の根拠とみなす 2.0 からの許容できるずれを Difference from 2.0 ボックスに入力します。算出される 2.0 からのずれである Durbin-Watson 統計量が入力した値より大きければ、残差に独立性がない可能性があることが SigmaPlot によって警告されます。例えば、このずれの値を提示された値 0.50 にすると、Durbin-Watson 統計量の値が 2.5 より大きいか、1.5 より小さい場合に残差に相関性があるというフラッグが立てられます。
独立性の条件を厳しくするには、difference from 2.0 の値を小さくします。
独立性の条件を緩和するには、difference from 2.0 の値を大きくします。
5.3 Options for Backward Stepwise Regression: Residuals
オプションダイアログボックスの Residuals タブをクリックすると、Predicted Values, Raw, Standardized, Studentized, Studentized Deleted, および Report Flagged Values Only オプションが表示されます。
- Predicted Values (予測値):このオプションを使用すると、独立変数の観測値ごとに従属変数の予測値が計算され、その結果がワークシートに保存されます。予測値をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。
予測値をワークシートの列に配置するには、対応するドロップダウンリストから配置先の列番号を選択します。ドロップダウンリストで none を選択し、Predicted Values チェックボックスが選択されている場合は、レポートにはその値が表示されますが、ワークシートには配置されません。
- Raw Residuals (生の残差):生の残差は、従属変数に関する予測値と観測値の差です。生の残差をレポートに含めるには、このチェックボックスが選択されているかを確認してください。生の残差をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。
生の残差をワークシートの列に配置するには、対応するドロップダウンリストから配置先の列番号を選択します。ドロップダウンリストで none を選択し、Raw チェックボックスが選択されている場合は、レポートにはその値が表示されますが、ワークシートには配置されません。
- Standardized Residuals (標準化残差):標準化残差は、残差をその推定量の標準誤差で割ったものです。残差の標準誤差は、要するに残差の標準偏差ですので、回帰直線周辺のばらつきの尺度となります。標準化残差をレポートに含めるには、このチェックボックスが選択されていることを確認してください。標準化残差をワークシートに含めるには、このチェックボックスを選択してください。
SigmaPlot は、対応するボックスで指定した信頼区間から外れたデータポイントに対して自動的にフラッグを立てます。例えば、データポイントの中心から外れたデータポイントは、標準化残差の値が「大きい」と判断されます。フラッグを立てるデータポイントは、Flag Values > 編集ボックスの値を編集することで変更することができます。
- Studentized Residuals (スチューデント化残差):スチューデント化残差は、データの両極値に対する中央付近の回帰直線の精度の高さを考慮に入れることによって残差を基準化するものです。スチューデント化残差は、スチューデントの t 分布に従う傾向がありますので、 t 分布を利用してスチューデント化残差の大きい値を決定することができます。SigmaPlot は、例えば、データポイントの中心から外れたデータポイントに対しては、スチューデント化残差の値が「大きい」というフラッグを自動的に立てます。フラッグで提示されるデータポイントは、回帰母集団の95%信頼区間の外側にあります。
スチューデント化残差をレポートに含めるには Studentized Residuals を選択します。スチューデント化残差をワークシートに含めたくない場合は、チェックボックスを外します。
- Studentized Deleted Residuals (スチューデント化削除残差): スチューデント化削除残差は、スチューデント化残差に似ていますが、該当するデータポイントを使わずに、回帰方程式を計算することで値を求める点が異なります。
スチューデント化削除残差をレポートに含めるには、このチェックボックスを選択します。スチューデント化削除残差をワークシートに含めたくない場合は、このチェックボックスを外します。
SigmaPlot は、例えば、データポイントの中心から外れたデータポイントに対しては、スチューデント化削除残差の値が「大きい」というフラッグを自動的に立てます。フラッグで提示されるデータポイントは、回帰母集団の95%信頼区間の外側にあります。
※ Note:スチューデント化残差、および、スチューデント化削除残差はいずれも、同じ信頼区間の設定を使って外れ値を判定します。 |
- Report Flagged Values Only (フラッグ値のみレポートする):レポートにフラッグの立てられた標準化、および、スチューデント化削除残差しか含めない場合は、Report Flagged Values Only を選択してください。このオプションを解除すると、全ての標準化およびスチューデント化残差がレポートにが含まれます。
5.4 Options for Backward Stepwise Regression: More Statistics
オプションダイアログの More Statistics タブをクリックすると、信頼区間オプションが表示されます。母集団、回帰、または、両方の信頼区間を設定し、それらをワークシートに保存することができます。
- Confidence Interval for the Population:母集団の信頼区間では、観測データを抽出した母集団が含まれる領域を定義する値の範囲を与えます。
母集団の信頼区間をレポートに含めるには、Population チェックボックスを選択します。母集団の信頼区間をレポートに含めたくない場合は、このチェックボックスを解除します。
- Confidence Interval for the Regression:回帰直線の信頼区間は、指定した信頼水準で従属変数と独立変数の間に真の平均値の関係が含まれる領域がこの値の範囲によって定義されます。
レポートに回帰の信頼区間を含めるには、Regression チェックボックスが選択されているかを確認し、パーセントボックスに信頼水準の値を入力して指定してください。信頼水準は 1 から 99 までの任意の値にすることができます。提示される区間の信頼水準はいずれも 95 % です。レポートに母集団の信頼区間を含めたくない場合は、選択されたチェックボックスを解除してください。
- 信頼区間をワークシートに保存する。信頼区間をワークシートに保存するには、Starting in Column ドロップダウンリストから区間データを保存したい最初の列の列番号を選択します。ワークシートの指定した列以降に選択した区間データが保存されます。
- PRESS Prediction Error (PRESS 予測誤差):PRESS 予測誤差は、回帰方程式がデータにどれだけ良くあてはまっているかを測る尺度です。このチェックボックスを選択した状態にしておけば、PRESS 統計量を用いて方程式の当てはめが評価されます。レポートに PRESS 統計量を含めたくなければ、選択されているこのチェックボックスを解除します。
- Standardized Coefficients (標準化係数):回帰方程式の係数を無次元の値に標準化したものです。
ここで、bi = 回帰係数、sxi= 独立変数 xi の標準偏差、そして、 sy = 従属変数 y の標準偏差です。
レポートに標準化係数を含めるには、Standardized Coefficients を選択します。標準化係数をワークシートに含めたくない場合は、このオプションを解除します。
5.5 Options for Backward Stepwise Regression: Other Diagnostics
オプションダイアログボックスの Other Diagnostics タブをクリックすると、Influence, Variance Inflation Factor および Power オプションが表示されます。Other Diagnostic が隠れている場合は、タブの右側にある右向きの矢印をクリックして表示圏内に移動します。左向きの矢印を使えば、その他のタブを表示圏内に戻すことができます。
Influence オプションは、影響力のあるデータポイントのインスタンスを自動的に検出するものです。影響力がもっとも強いポイントは、データポイントの外れ値です。すなわち、それ以外のデータポイントと一直線上に並ぼうとはしないものです。これらの点は、回帰直線の計算において極端に強い影響を及ぼす可能性があります。影響力のあるポイントを識別し定量化するための影響力の検定には、幾つかの種類が用意されています。
- DFFITS :DFFITSi は、データセットの中から i 番目のデータポイントを除外したときに変化する予測値の標準誤差を見積る数です。あるデータポイントの予測値に対する影響力を測るもうひとつの尺度で、回帰係数を計算するのに使用します。
データポイントを除外したとき、その予測値の変化の標準誤差が2以上であれば影響力ありと判断されます。
DFFITS チェックボックスを選択すると、全てのポイントについて DFFITS 値を計算し、影響力のある点、例えば、DFFITS の値が Flag Values > 編集ボックスで指定した値よりも大きい値には、フラッグが立てられます。データの中で影響力が大きい点であることをあらわす標準誤差として提示される値は 2.0 です。影響力のある点として余分なフラッグを立てないようにするには、この値を高くします。影響力のより小さなポイントにフラッグを立てるには、この値を低くします。
- Leverage (てこ比) :Leverage (てこ比) は、あるポイントが回帰方程式の結果に対して影響力をもつ可能性があるか否かを判断するのに使用します。てこ比は、独立変数 (複数可) の値のみに依存します。観測値のてこ比が高ければ、その独立変数は両極値にある傾向があります。そこでは、独立変数の小さな変化が従属変数の予測値に大きな影響を及ぼす可能性があります。
データポイントのてこ比の期待値は次式であらわされます:
ここで、k は独立変数の数、n はデータポイントの数です。観測データのレバレッジが期待されるレバレッジより大きい場合は、その点に影響力がある疑いがあります。
Leverage チェックボックスを選択すると、ポイント毎のてこ比を計算し、影響力の疑いのある点、例えば、期待されるてこ比が指定した倍数より大きいものであれば自動的にフラッグが付けられます。提示される値は、その回帰に期待されるてこ比の 2.0 倍です。例えば、
影響力の疑いがある点として余分なフラッグを立てないようにするには、この値を高くします。影響力の小さなポイントにフラッグを立てるには、この値を低くします。
- Cook's Distance (クックの距離):クックの距離は、回帰方程式のパラメータ推定値に対して各ポイントの影響力がいかに大きいかを測る尺度です。クックの距離は、ある点を分析から除外したときに回帰係数の値がどれだけ変化するかを評価します。クックの距離は、独立変数と従属変数の両方の値に依存します。
全てのポイントに対してこの値を計算し、影響力のあるポイント、例えば、指定値よりもクックの距離の値が大きいポイントに対してフラッグを立てるようにするには、Cook's Distance チェックボックスを選択します。提示される値は 4.0 です。クックの距離が 1 より大きければ、その点に影響力が存在する可能性があることを示します。クックの距離が 4 より大きければ、その点はパラメータの推定値に対して大きな影響力があることを示します。影響力のある点として余分なフラッグを立てないようにするには、この値を高くします。影響力の小さなポイントにフラッグを立てるには、この値を低くします。
- Report Flagged Values Only (フラッグを立てた値のみレポートする) :影響力ポイント検定でフラッグが立てられた影響力のポイントだけをレポートに含める場合は、Report Flagged Values Only を選択します。このオプションを解除すると影響力のある全てのポイントがレポートに含まれることになります。
5.5.1 Variance Inflation Factor
- Variance Inflation Factor オプションは、独立変数の多重共線性 (multicollinearity) 、すなわち、独立変数のあてはめにおける線形結合を測定するものです。
回帰プロシージャーでは、独立変数は統計的に互いに独立であることが仮定されます。例えば、ある独立変数の値が他の独立変数の値に影響を及ぼすことはありません。しかし、このような理想的な状況が現実の世界で起こることはまれです。独立変数が相関関係にある場合、すなわち、冗長な情報が含まれている場合、その回帰モデルのパラメータ推定値は、信頼できないものになる可能性があります。
回帰モデルのパラメータは、各独立変数の固有の寄与を理論的に数値化して従属変数を予測します。もし独立変数どうしに相関関係があれば、それらの間には共通する何らかの情報が含まれているので、パラメータの推定値が「汚染」されることになります。この多重共線性 (multicollinearity) が高ければそのパラメーターの推定値は信頼できないものになります。
多重共線性 (multicollinearity) には以下の2つのタイプがあります:
- Structural Multicollinearity (構造的多重共線性):構造的多重共線性が生じるのは、回帰方程式に互いに影響を及ぼしあう複数の独立変数が含まれている場合です。構造的多重共線性が生じる最も一般的な形式は、多項式回帰方程式の独立変数が幾つかの累乗 (power) になっている場合です。このような累乗 (例えば、x, x2, ... など) には互いに相関関係があるので構造的多重共線性が生じます。回帰方程式に交互作用項を含める場合も、構造的多重共線性が生じることがあります。
- Sample-Based Multicollinearity (標本に基づく多重共線性):標本に基づく多重共線性が生じるのは、独立変数が相関するような方法で標本となる観測データが収集されている場合です (例えば、年齢の異なる児童に関して年齢、身長、および、体重を収集したとすれば、各変数の間には互いに相関関係があります)。
SigmaPlot では、VIF (Variance inflation factor) を使って多重共線性のある独立変数を自動的に検出することができます。オプションダイアログボックスの Other Diagnostics タブをクリックすると、Variance Inflation Factor オプションが表示されます。(※実際には表示されない)
- 多重共線性のデータにフラッグを付ける:Flag Values > 編集ボックスの値を多重共線性変数の閾値として使います。デフォルトの閾値は 4.0 で、これは、4.0 より大きい値はいずれも多重共線性としてフラッグが付くことを意味します。この多重共線性の検出をより敏感にするには、この値を小さくします。そのデータに多重共線性があるというフラッグが付く前に、独立変数の相関関係を許容する範囲を広げるには、この値を大きくします。
VIF ( variance inflation factor) が大きければ、その回帰モデルに余分な変数が存在することになり、パラメータ推定値が信頼できないものになります。VIF ( variance inflation factor) の値が 4 より大きければ、多重共線性の可能性が提示されます。この値が 10 より大きければ、多重共線性が深刻であることをあらわします。
- 多重共線性の対処法:標本に基づく多重共線性 (Sample-based multicollinearity) は、他の条件下でデータを多く収集して独立変数間の相関関係を無くすことで解消される場合があります。もし解消できなければ、その回帰方程式のパラメーターは過剰であることになり、単一または複数の独立変数を取り除くことで多重共線性を排除する必要があります。
構造的多重共線性 (structural multicollinearities) は、累乗や交互作用項ができる前に独立変数を中心化することによって解消することができます。
- Report Flagged Values Only (フラッグを立てた値のみレポートする) :影響力ポイント検定でフラッグが立てられた影響力のポイントだけをレポートに含める場合は、Report Flagged Values Only を選択します。このオプションを解除すると影響力のある全てのポイントがレポートに含まれることになります。
- 影響点の対処法:影響点には次の2つの原因があります:
- 観測データやデータ入力のエラーによってそのデータポイントに何らかの瑕疵が生じている場合。
- モデル自体に誤りがある場合。
データの収集や入力に誤りがあった場合は、その値を修正してください。修正する値がわからなければ、そのデータポイントの削除を判断できるかもしれません。モデルに誤りがあるようであれば、回帰の独立変数を変更するか、非線形回帰をお試しください。
5.5.2 Power
オプションダイアログボックスの Other Diagnostics タブをクリックすると、Power オプションが表示されます。Other Diagnostic が隠れている場合は、タブの右側にある右向きの矢印をクリックして表示圏内に移動します。左向きの矢印を使えば、その他のタブを表示圏内に戻すことができます。
- 回帰の検出力は、観測されたデータの中に関係性を検出する能力です。アルファ (α) は誤って関係ありと判断されることを許容する確率です。
段階的線形回帰データの検出力を計算するには、Power を選択します。アルファ値を変更するには、Alpha Value 編集ボックスの数値を編集します。提示される値は α = 0.05 です。この設定は、誤りを許容する確率が 20分の1であることを示します。すなわち、P < 0.05 であれば有意な関係があると判断できることになります。
アルファの値を小さくすると、有意な関係があると結論付ける要件がそれだけ厳格なものになりますが、関係があるにもかかわらず関係がないと結論付ける可能性が高くなります。アルファの値を大きくすると、関係があるとの結論付けが容易になりますが、それだけ誤判定をレポートする危険性が高くなります。
6. 段階的線形回帰を実行する
段階的回帰 (Stepwise Regression) を実行するには、検定するデータを選択する必要があります。検定ウィザードの Select Data パネルを使用して、検定したいデータを含むワークシートの列を選択します。
段階的回帰を実行するには:
- 検定を実行する前にデータを選択したい場合は、データ範囲をマウスポインタでドラッグしておきます。
- Analysis タブをクリックします。
- SigmaStat グループの Tests ドロップダウンリストから以下を選択します:
Regression → Stepwise → Forward
または
Regression → Stepwise → Backward
検定ウィザードの Select Data パネルが表示されます。検定を選択する前に列を選択していれば、Selected Columns リストにその列が表示されます。列を選択していなければ、データ選択の指示がダイアログボックスに表示されます。
- Selected Columns リストに別のワークシート列を割り当てたい場合には、ワークシートで直接その列を選択するか、Data for Dependent または Data for Independent ドロップダウンリストからその列を選択します。
Selected Columns リストの Dependent Variable 行に割り当てられるのは最初に選択した列で、リストの Independent Variable 行に2列目が割り当てられます。各行には、選択した列の番号またはタイトルが表示されます。dependent と independent に選択できるデータはそれぞれ1列のみです。
- 選択した内容を変更するには、リストの割り当てを選択したあと、ワークシートから列を選択しなおします。Selected Columns リストの内容をダブルクリックすることによって、列の割り当てを消去することもできます。
- Finish をクリックすると、回帰が実行されます。正規性と等分散性、残差の独立性を検定するよう指定している場合、SigmaPlot は、正規性 (Shapiro-Wilk または Kolmogorov-Smirnov)、等分散性、残差の独立性を検定します。もしデータに関するこれらの検定のいずれかが棄却されると、SigmaPlot によりその旨が報告されます。検定が完了すると、Stepwise Regression レポートが表示されます。
予測値 (Predicted) と残差 (Residual) およびその他の検定結果をワークシートに配置するよう選択している場合は、段階的回帰により選択された最終モデルの値のみが算出されます。これらの結果は、指定した列に配置され、それぞれラベルが付けられます。
※ Note:その他のモデルの結果を表示するには、そのモデルに使用した独立変数を記録しておき、その独立変数のみを使って多重線形回帰を実行します。 |
7. 段階的回帰の結果を解釈する
前進型および後退型の段階的回帰レポートにはいずれも、各段階で投入または除外された変数、回帰係数、分散分析表、および、モデルの内 (in) と外 (not in) の変数に関する情報が表示されます。Options for Forward または Backward Regression ダイアログボックスでオプションが選択されていれば、最終的な回帰モデルの回帰診断、信頼区間、および、予測値が一覧で表示されます。
結果の説明
数値による結果に加えて、拡張された結果の説明が表示されることがあります。この説明テキストは、Options ダイアログボックスで有効または無効にすることができます。表示される小数点以下の桁数についても Options ダイアログボックスで指定できます。
7.1 F-to-Enter, F-to-Remove
回帰計算の従属変数として使用したワークシートの列です。
これらは、Options for Stepwise Regression ダイアログボックスで指定した F 値です。
- F-to-Enter:F-to-Enter 値は、前進型段階的回帰で回帰方程式に投入する独立変数、または、後退型段階的回帰で段階ごとに置き換える独立変数を制御します。F-to-Enter 値は、ある独立変数を回帰方程式に投入する前の F 値の最小増分です。
F 値の増分が F-to-Enter 値より大きい独立変数は、いずれもモデルに追加されます。提示される F-to-Enter 値は 4.0 です。
- F-to-Remove:F-to-Remove 値は、後退型段階的回帰で回帰方程式から削除する独立変数、または、前進型段階的回帰で段階ごとに削除する独立変数を制御します。F-to-Remove は、ある独立変数を回帰方程式から除外する前の F 値の最大増分です。
F 値の増分が F-to-Remove 値より小さな独立変数は、いずれもモデルから除外されます。提示される F-to-Remove 値は 3.9 です。
7.2 ステップ番号
ステップ番号、追加または除外された変数、方程式の R, R2 および adjusted R2、および、推定量の標準誤差がこの見出しの下に全て一覧で表示されます。
- R と R Squared:段階的回帰の重相関係数 R、および、決定係数 R2 はいずれも、その回帰モデルがどれだけデータを説明するかをはかる尺度です。R の値が 1 に近ければ、その方程式は独立変数と従属変数との間の関係をうまく説明していることになります。
独立変数の値が従属変数のどの予測にも従わないときは R=0 に、独立変数から従属変数を完全に予測できるときは、R=1 になります。
- Adjusted R Squared:調整済み R2 (R2adj) も、その回帰モデルがどれだけデータを説明するかをはかる尺度ですが、自由度に影響する独立変数の数を考慮する点が異なります。R2adj の値が大きいほど (1 に近いほど) 、その方程式は独立変数と従属変数との間の関係をうまく説明していることになります。
- Standard Error of the Estimate:推定量の標準誤差 S y|x は、推定する母集団の回帰平面に関する実際の変動をはかる尺度です。推定する母集団は、一般に、観測された標本のおよそ2標準誤差の範囲内に収まります。この統計量は、各ステップの結果ごとに表示されます。
7.3 分散分析表
分散分析表には、ステップ毎に回帰に関する ANOVA 統計量とそれに関連する F 値が一覧で表示されます。
- SS (Sum of Squares):平方和は、従属変数の変動をはかる尺度です。
- 回帰の平方和は、回帰平面の従属変数の平均値からの差をはかる尺度です。
- 残差の平方和は、従属変数の観測値と回帰モデルによって予測された値との間の差である残差のサイズをはかる尺度です。
- DF (Degrees of Freedom):自由度は、観測データと回帰方程式の変数の数をあらわします。
- 回帰の自由度は、独立変数の数をはかる尺度です。
- 残差の自由度は、観測数から方程式の項の数を差し引いた数をはかる尺度です。
- MS (Mean Square):平均平方は、母集団の分散に関する2つの推定量です。これら2つの分散推定量を比較することが分散分析の基本となります。
回帰の平均平方は、従属変数の平均値からの回帰の変動をはかる尺度で、次式であらわされます:
残差の平均平方は、回帰平面に関する残差の変動をはかる尺度で、次式であらわされます:
残差の平均平方は s2y|x とも同じになります。
- F 統計量:F 検定統計量は、従属変数の予測に関する独立変数の寄与度をはかる尺度です。次式の比であらわされます:
F が大きな値である場合は、独立変数が従属変数の予測に寄与していると結論付けることができます (すなわち、係数の少なくとも1つがゼロでなく、かつ、説明できないばらつき (unexplained variability) が、無作為抽出した従属変数の平均に関するばらつきの期待値より小さい場合) 。F 比が 1 に近いときは、変数間には関連性がないと結論付けることができます (すなわち、このデータは、すべての標本がランダムに分布しているという帰無仮説と合致します)。
- P 値:P 値は、従属変数と独立変数の間に誤って関連性があると結論付ける確率です (すなわち、F に基づいて帰無仮説を誤って棄却する、すなわち、第1種の過誤 (Type I error) を犯す確率です)。P 値が小さいほど、関連性のある確率が高くなります。
伝統的に P < 0.05 であれば、独立変数を従属変数の予測に使うことができると結論付けることができます。
7.4 Variables in Model
現行ステップの回帰方程式で使用した独立変数に関する情報がこの見出しの下に一覧で表示されます。一覧で表示される値は、変数の係数、標準誤差、F-to-Remove、および、それに対応する F-to-Remove の P 値です。これらの統計量は、ステップ毎にそれぞれ表示されます。強制的にモデルに組み入れた変数にはアスタリスク (*) が付きます。
- Coefficients:その回帰モデルの定数 (Constant) の値と独立変数の係数が一覧で表示されます。
- Standard Error:標準誤差は、回帰係数の推定量です (平均の標準誤差と似ています)。推定する母集団の真の回帰係数は、一般に、観測した標本の係数のおよそ2標準誤差の範囲内に収まります。標準誤差が大きければ、多重共線性の疑いがあります。
- F-to-Enter:F-to-Enter は、独立変数を回帰方程式に追加することによって増加する従属変数の予測能力の増分をはかる尺度です。次式の比であらわされます:
ある変数の F-to-Enter が、Stepwise Regression オプションで指定した F-to-Enter のカットオフ値より大きければ、その変数は方程式にそのまま残るか、元に戻されます。
※ Note:F-to-Remove 値は、ある変数が方程式から除外されるか留まるかを決定するカットオフ値です。 |
- P 値:P は、F-to-Enter 値に関する P 値を計算したものです。P 値は、独立変数の追加が従属変数の予測に寄与すると誤って結論付ける確率です (すなわち、F-to-Enter に基づいて帰無仮説を誤って棄却する、すなわち、第1種の過誤 (Type I error) を犯す確率です)。P 値が小さいほど、独立変数の追加がモデルに寄与する確率は高くなります。
伝統的に P < 0.05 であれば、独立変数を従属変数の予測に使うことができると結論付けることができます。
7.5 Variables not in Model
モデルに投入されていない変数または除外された変数が、それに対応する F-to-Remove 値と P 値と共にこの見出しの下に一覧で表示されます。
- F-to-Remove:F-to-Remove は、独立変数を回帰方程式から除外することによって増加する従属変数の予測能力の増分をはかる尺度です。
ある変数の F-to-Remove が、Stepwise Regression オプションで指定した F-to-Remove のカットオフ値より大きければ、その変数は方程式から除外されるか、方程式の外に置かれます。
※ Remember:方程式に再投入したりそのままにしておく変数を決定するのは、F-to-Enter 値です。 |
- P Value:P は、F-to-Remove 値に関する P 値を計算したものです。P 値は、独立変数の除外が従属変数の予測に寄与すると誤って結論付ける確率です (すなわち、F-to-Remove に基づいて帰無仮説を誤って棄却する、すなわち、第1種の過誤 (Type I error) を犯す確率です)。P 値が小さいほど、独立変数の除外がモデルに寄与する確率は高くなります。
伝統的に P < 0.05 であれば、独立変数を従属変数の予測に使うことができると結論付けることができます。
7.6 PRESS 統計量
PRESS (Predicted Residual Error Sum of Squares:予測残差平方和) は、ある回帰モデルが観測データをどれだけうまく予測できるかを評価する尺度です。
- PRESS 統計量は、予測誤差 (予測値と実測値の差) の二乗を観測データ毎に合計するもので、推定する回帰モデルの計算からは当該データは除外して算出します。
PRESS 統計量のひとつの重要な用途は、モデルの比較です。同一データに幾つかの回帰モデルを当てはめた場合、PRESS 統計量の最も小さいモデルが最も予測能力が高いものとなります。
7.7 Durbin-Watson 統計量
- Durbin-Watson 統計量は、残差間の相関の測度です。残差間に相関がない場合、Durbin-Watson 統計量は 2 になります。この値が 2 から離れるほど、残差間の相関の尤度 (likelihood) は高くなります。この結果は、Options for Stepwise Regression ダイアログボックスでこれを選択していれば表示されます。
回帰モデルでは、その残差が互いに独立していると仮定します。Durbin-Watson 検定はこの前提条件のチェックに使用します。Durbin-Watson 値が 2 から Options for Linear Regressionで指定した値だけ外れる場合、レポートに警告が表示されます。提示されるトリガー値の差は、0.50 以上です (例えば、Durbin-Watson 統計量が 1.5 を下回るか 2.5 を上回る場合です)。
7.8 正規性検定
正規性検定 (Normality Test) の結果には、元になる母集団が回帰直線の周囲に正規分布しているという仮説の検定にそのデータが合格 (Passed) したか否か (failed)、および、この検定で算出される P 値が表示されます。いずれの回帰でも、元になる母集団が回帰直線の周囲に正規分布すると仮定します。正規性検定が棄却された場合は、レポートに警告が表示されます。この結果は、検定オプションのダイアログボックスで正規性検定を無効にしない限り表示されます。
正規性検定が棄却された場合は、影響力のある外れ値が存在するか、回帰モデルに誤りがある可能性があります。
7.9 等分散検定
等分散検定 (Constant Variance Test) の結果には、元になる母集団の従属変数のばらつきが独立変数の値にかかわらず一定であるという仮説の検定にそのデータが合格 (Passed) したか否か (failed)、およびこの検定で算出される P 値が表示されます。等分散検定が棄却された場合は、レポートに警告が表示されます。
等分散検定が棄却された場合、別のモデル (例えば、データの形状により近いモデル) の使用を検討するか、または、独立変数を変換してばらつきを安定化することでより精度の高い回帰方程式のパラメータ推定値を得ることを検討してください。
7.10 検出力
この結果は、Options for Stepwise Regression ダイアログボックスでこのオプションを選択している場合に表示されます。
回帰モデルの検出力 (Power)、すなわち感度は、もし変数間に真の関係がある場合、そのモデルが変数の関係を正しくあらわす確率です。
回帰モデルの検出力は、測定データの数、誤って差があるとレポートする危険率 (アルファ)、および回帰の傾きに影響を受けます。
- Alpha (アルファ):アルファ (α) は、そのモデルが本当は誤っているのに正しいと結論付けてしまうことを許容する確率です。アルファ (α) の誤りを、第1種の過誤 (Type I error) と呼ぶこともあります (第1種の過誤は、関係がないという仮説が真であるのに、棄却してしまう場合です)。
この値は、オプションダイアログボックスの Power で設定します。提示される値は α = 0.05 で、20分の1の確率で誤りを許容するという設定になります。アルファ (α) の値を小さくするほど、そのモデルが正しいと結論付ける要件はより厳密になりますが、反対に、そのモデルが実際は正しいにもかかわらず誤りであると結論づけてしまう可能性は高くなります (第2種の過誤)。アルファの値を大きくしてモデルを正しいと結論付ける条件を緩和すると、誤ったモデルを採用してしまう危険率も高くなります (第1種の過誤)。
7.11 回帰診断
回帰診断の結果には Options for Stepwise Regression ダイアログボックスで選択した予測値、残差の診断結果のみが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付ける残差の値は、Options for Stepwise Regression ダイアログボックスで設定します。
Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされます。その観測データのその他の結果は全て表示されます。(※ v14 では Report flagged values only)
- Predicted Values (予測値) :これは、各測定データについて、回帰モデルによって予測された従属変数の値です。これらの値をワークシートに保存しておけば、SigmaPlot を使って回帰をプロットするのに使用できます。
- Residuals (残差):生の残差で、従属変数に関する測定値と予測値の差です。
- Standardized Residuals (標準化残差):標準化残差 (Standardized Residuals) は、生の残差を推定量の標準誤差で割ったものです。
この残差が回帰モデルの周囲に正規分布していれば、標準化残差の約 66% は、-1 から +1 の間の値をとり、標準化残差の約 95% は、-2 から +2 の間の値をとります。標準化残差の値が大きいほど、その点は回帰モデルから離れていることを示します。値が -2.5 より小さい場合、もしくは、2.5 より大きい場合は、そのケースが外れ値である可能性があります。
- Studentized Residuals (スチューデント化残差):スチューデント化残差 (Studentized residual) は、従属変数の予測値の信頼性についてデータセットの中央を高く考慮する標準化残差です。極端なデータポイント (独立変数の最小値と最大値を持つデータポイント) の残差の値に重みを付けることによって、標準化残差に比べて外れ値の検出の感度が高くなります。
回帰に関する指定した信頼区間の外側にあるスチューデント化 (Studentized) およびスチューデント化削除 (Studentized deleted) 残差はいずれも、外れ値としてフラッグが付けられます。提示される信頼区間は 95% です。
この残差は、全データを使って推定量の標準誤差を計算することから、内部スチューデント化残差 (internally Studentized residual) とも言われています。
- Studentized Deleted Residuals (スチューデント化削除残差):外部スチューデント化残差 (externally Studentized residual) とも言われる、スチューデント化削除残差 (Studentized deleted residual) は、推定量の標準誤差 syx(—i) を使用し、この残差に関係するデータポイントを削除した後に計算を行うスチューデント化残差です。分散の計算からこのデータポイントを削除することによって、外れ値に対する影響が大きくなります。
回帰に関する指定した信頼区間の外側にあるスチューデント化 (Studentized) およびスチューデント化削除 (Studentized deleted) 残差はいずれも、外れ値としてフラッグが付けられます。提示される信頼区間は 95% です。
スチューデント化削除残差は、スチューデント化残差よりも外れ値に対して遥かに大きな値を算出するので、スチューデント化残差に比べて外れ値の検出の感度が高くなります。
7.12 影響診断
影響診断の結果にはオプションダイアログボックスの Other Diagnostics タブで選択した結果の値だけが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付ける残差の値は、Options ダイアログボックスの Other Diagnostics タブで設定します。
Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされます。その観測データのその他の結果も表示されます。(※ v14 では Report flagged values only)
- Cook’s Distance (クックの距離):クックの距離 (Cook’s Distance) は、回帰方程式のパラメータ推定において各点が有する影響力の大きさを評価する尺度です。これは、評価する点を分析から除外したとき回帰係数の値がどれだけ変化するかをはかるものです。
値が 1 より大きい場合は、その点に影響力がある可能性を示します。クックの距離が 4 より大きい場合、その点は、パラメータ推定値に対して大きな影響があることを示します。ある点のクックの距離が指定した値より大きい場合、影響力があるとしてフラッグが付けられます。提示される値は 4 です。
- Leverage (てこ比):レバレッジ (Leverage:てこ比) の値は、影響力をもつ可能性のある点を識別します。観測データのレバレッジが期待されるレバレッジより大きい場合は、その点に影響力がある可能性があります。提示されるてこ比の値は、期待値の 2.0 倍です。
データポイントのてこ比の期待値は次式であらわされます:
ここで、k は独立変数の数、n はデータポイントの数です。
レバレッジの計算には従属変数しか使用しませんので、独立変数の極値 (大きい値と小さい値) がレバレッジの高い点になる傾向があり、このような点では、独立変数のわずかな変化が従属変数の予測値に大きな影響を与える可能性があります。
- DFFITS:DFFITS 統計量は、回帰予測におけるデータポイントの影響力の測度です。あるデータポイントに関して、回帰係数を計算する前にその測定値をデータセットから除外したときの標準誤差の違いを推定した数です。
データポイントを除外したときに指定した標準誤差より大きく変化する予測値には、影響力があるというフラッグがつけられます。提示される標準誤差の値は、2.0 です。
7.13 信頼区間
これらの結果は、Options for Stepwise Regression ダイアログボックスで選択している場合に表示されます。信頼区間にゼロが含まれていなければ、指定した信頼水準でその係数はゼロではないと結論付けることができます。これは、 P < α (alpha) としても表現できます。ここで、α は、係数はゼロではないと誤って結論付けてもよしとする確率で、信頼区間は 100(1 - α) となります。
信頼水準は、1 から 99 までの任意の値を指定できます。提示される信頼水準はいずれの区間についても 95% です。
- Pred (Predicted Values:予測値) :回帰モデルによって予測される測定データ毎の従属変数の値です。
- Mean:回帰の信頼区間では、従属変数と独立変数の間の真の関連性を含む範囲を計算する変数の値の範囲が指定した信頼水準で与えられます。
- Obs (Observations):母集団の信頼区間では、観測データを抽出した母集団を含む範囲を計算する変数の値の範囲が指定した信頼水準で与えられます。
8. 段階的回帰のレポートグラフ
段階的回帰の結果を使用して、以下に示す最大5つのグラフを作成することができます:
8.1 段階的回帰のレポートグラフを作成する
段階的回帰レポートのグラフを作成するには:
- レポートを表示した状態で、Report タブをクリックします。
- Result Graphs グループにある Create Result Graph をクリックします。
Create Result Graph ダイアログボックスに Stepwise Regression の結果で使用できるグラフのタイプが表示されます。
- Graph Type リストから作成したいグラフのタイプを選択して、OK をクリックするか、リストから作成したいグラフをダブルクリックします。詳しくは、レポートグラフをご覧ください。
グラフウィンドウに指定したグラフが表示されます。