23.2 単純線形回帰
線形回帰 (Linear Regression) を使うのは:
- 直線をデータに当てはめることによって、そのデータの傾向を予測したいとき、または、ある変数の値から他の変数の値を予測するとき。
- 存在する独立変数が唯一であることが分かっているとき。
独立変数とは、予測変数とも呼ばれるもので、時間や温度といった既知の変数です。独立変数を変動させると、それに対応する従属変数 (応答変数ともいう) の値も決まります。独立変数が複数あることが既知の場合は、多重線形回帰 (multiple linear regression) を使います。
- 単純線形回帰について
- 単純直線回帰を実行する
- 単純線形回帰のデータを配置する
- 単純線形回帰オプションを設定する
- Options for Linear Regression: Assumption Checking
- Options for Linear Regression: Residuals
- Options for Linear Regression: More Statistics
- Options for Linear Regression: Other Diagnostics
- 影響点の対処法
- 単純線形回帰を実行する
- 単純線形回帰の結果を解釈する
- 回帰方程式
- 重相関係数 R、決定係数 R Squared、自由度調整済み決定係数 Adj R Squared
- 推定量の標準誤差
- 統計量のサマリーテーブル
- Beta (標準化係数 β)
- 分散分析表
- PRESS 統計量
- Durbin-Watson 統計量
- 正規性検定
- 等分散検定
- 検出力
- 回帰診断
- 影響診断
- 信頼区間
- 単純線形回帰のレポートグラフ
- 線形回帰のレポートグラフを作成する
1. 単純線形回帰について
線形回帰では、独立変数と従属変数との間に関連性があること、すなわち、直交座標系にそれらのグラフを作成すると直線になることが仮定されます。線形回帰では、与えられた独立変数に関する観測値から、その従属変数の値をもっともうまく説明する、すなわち、予測する直線を求めます。
単純線形回帰で使用する方程式は、直線の方程式、すなわち、y=b0+b1x です。ここで、 y は従属変数、x は独立変数、b0 は切片、すなわち定数項 (x=0 のときの従属変数の値、回帰直線が y 軸と交わる点)、そして、b1 は傾き、すなわち、回帰係数 (x の単位あたりの増加に対する y 値の増加) です。x の値が増加すると、それに対応する y の値も b1 の符号に応じて b1 だけ増加または減少します。
線形回帰はパラメトリック検定のひとつです。すなわち、独立変数の値が与えられると、その従属変数の値は、回帰直線の周囲に等しい分散を持つ正規分布に従うことが仮定されます。
2. 単純直線回帰を実行する
単純直線回帰を実行するには:
- ワークシートに適切なデータを入力または配置します。詳しくは、単純線形回帰のデータを配置するをご覧ください。
- 必要があれば、Linear Regression オプションを設定します。
- Analysis タブをクリックします。
- SigmaStat グループにある Tests ドロップダウンリストから以下を選択します:
Regression → Linear
- 検定を実行します。
- レポートグラフを作成します。詳しくは、単純線形回帰のレポートグラフをご覧ください。
3. 単純線形回帰のデータを配置する
測定された従属変数のデータを1列に、それに対応する独立変数のデータを第2列に配置します。欠損値を含む観測データは無視されます。また、どちらの列も長さを同じにする必要があります。
4. 単純線形回帰オプションを設定する
線形回帰オプションを使うのは:
- 前提条件のチェックオプションを設定するとき。
- 残差の表示とワークシートへの保存を設定するとき。
- 信頼区間の表示とワークシートへの保存を設定するとき。
- PRESS 予測誤差と標準化回帰係数を表示するとき。
- 外れ値や影響力のあるデータポイントを識別するための検定を指定するとき。
- 検出力 (Power) を表示するとき。
線形回帰オプションを変更するには:
- 検定オプションの変更後に検定を実行するに際して、検定の実行前にデータを選択しておきたい場合は、対象とするデータ列をポインターでドラッグしておきます。
- Analysis タブを選択します。
- SigmaStat グループの Options をクリックします。
Options for Linear Regression
ダイアログに以下の4つのタブが表示されます:
- Assumption Checking:Assumption Checking タブをクリックすると、Normality (正規性)、Constant Variance (等分散性)、および Durbin-Watson オプションに戻ります。詳しくは、Options for Linear Regression: Assumption Checking をご覧ください。
- Residuals:Residuals タブをクリックすると、残差オプションが表示されます。詳しくは、Options for Linear Regression: Residuals をご覧ください。
- More Statistics:More Statistics タブをクリックすると、信頼区間、PRESS 予測誤差、および、標準化係数オプションが表示されます。詳しくは、Options for Linear Regression: More Statistics をご覧ください。
- Other Diagnostics:Other Diagnostics タブをクリックすると、Influence (影響力) と Power (検出力) のオプションが表示されます。詳しくは、Options for Linear Regression: Other Diagnostics をご覧ください。
- チェックボックスを選択して各検定オプションを有効または無効にします。SigmaPlot を次回以降起動するときは、ここで選択したオプションの内容が保持されます。詳しくは、単純線形回帰の結果を解釈するをご覧ください。
- 検定を続行するには、Run Test をクリックします。
- 現在の設定内容を適用して、オプションダイアログを閉じるには、OK をクリックします。
4.1 Options for Linear Regression: Assumption Checking
オプションダイアログボックスから Assumption Checking タブを選択すると、Normality、Constant Variance、および、Durbin-Watson オプションが表示されます。これらのオプションは、お持ちのデータが回帰分析にふさわしいか否かを、そのデータについて線形回帰が行う3つの仮説をチェックすることによって検定するものです。線形回帰で仮定するのは:
- 元の母集団が線形回帰について正規分布していること。
- 元の母集団の従属変数の分散が独立変数の値とは無関係に一定であること。
- 残差が互いに独立していること。
デフォルトでは全ての Assumption Checking (前提条件のチェック) オプションが選択されています。これらのオプションは、使用するデータが等分散の正規分布に従っており、その残差が互いに独立であることが確実に分かっているときだけ無効にしてください。
- Normality の検定:SigmaPlot では、母集団の分布の正規性検定に Shapiro-Wilk または Kolmogorov-Smirnov のいずれかを使用します。
- Constant Variance Testing (等分散性の検定):SigmaPlot では、等分散性の検定に残差の絶対値と観測された従属変数の値との間のスピアマンの順位相関 (Spearman rank correlation) を計算します。この相関関係が有意であれば等分散性の前提条件は棄却されますので、その場合は、別モデル (例えば、データの形状により密接に従うようなモデル) での試行を検討するか、単一または複数の独立変数の分散安定化の変換を行う必要があります。
- P Values for Normality and Constant Variance (正規性と等分散性の P 値): P 値は、データが正規分布に従っていないと誤って結論付けてしまう確率を決定します (そのデータは正規分布に従っているという帰無仮説を誤って棄却してしまうリスクが P 値です)。ここで設定した P 値よりも、検定で算出された P 値が大きければ検定は採択 (Pass) されます。
正規性と等分散のいずれかまたは両方の要件をより厳密なものにするには、この P 値を大きくします。パラメトリックな統計手法では、仮説の棄却が比較的ロバスト (頑健) に検出されることから、SigmaPlot ではこの値を 0.05 としています。P 値をこれよりも大きくすると (例えば、0.10)、そのデータに正規性がないとの判定が出やすくなります。
正規性と等分散のいずれか又は両方の要件を緩和するには、P 値を小さくします。正規性があるという仮説を棄却するための P 値に小さい値しか要求しないということは、前提とする正規分布からデータが外れていても、それが非正規であると判定される前に、それだけ広く受け入れたいとする意思があることを意味します。例えば、P 値を 0.050 とした場合、あるデータを非正規であると判定するには、0.100 の場合と比べてそれだけ大きく正規性を逸脱していなければなりません。
※ Tip:この前提条件の検定では、非正規や等分散性でない母集団のデータ検出においてロバストな処理がなされますが、データ分布が極端な条件では検出できない場合があります。しかし、このような条件の場合は、前提条件の自動検定に頼らずにデータを視覚的に調べることで容易に検出することができます。 |
- Durbin-Watson 統計量: SigmaPlot では、残差が互いに独立していることを検定するのに Durbin-Watson 統計量を使用します。Durbin-Watson 統計量は、残差間の系列相関を測定するものです。この残差は、多くの場合、独立変数が時間で、かつ、観測値と回帰直線との間のある時点のずれが、前の時点におけるずれと関連性がある場合に相関します。残差間に相関性がない場合、Durbin-Watson 統計量は 2 になります。
- Difference from 2 の値:系列相関の根拠とみなす 2.0 からの許容できるずれを Difference from 2.0 ボックスに入力します。算出される 2.0 からのずれである Durbin-Watson 統計量が入力した値より大きければ、残差に独立性がない可能性があることが SigmaPlot によって警告されます。例えば、このずれの値を提示された値 0.50 にすると、Durbin-Watson 統計量の値が 2.5 より大きいか、1.5 より小さい場合に残差に相関性があるというフラッグが立てられます。
独立性の条件を厳しくするには、difference from 2.0 の値を小さくします。
独立性の条件を緩和するには、difference from 2.0 の値を大きくします。
4.2 Options for Linear Regression: Residuals
オプションダイアログボックスの Residuals タブを選択すると、Predicted Values, Raw, Standardized, Studentized, Studentized Deleted, および Report Flagged Values Only オプションが表示されます。
- Predicted Values (予測値):このオプションを使用すると、独立変数の観測値ごとに従属変数の予測値が計算され、その結果がワークシートに保存されます。予測値をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。
予測値をワークシートの列に配置するには、対応するドロップダウンリストから配置先の列番号を選択します。ドロップダウンリストで none を選択し、Predicted Values チェックボックスが選択されている場合は、レポートにはその値が表示されますが、ワークシートには配置されません。
- Raw Residuals (生の残差):生の残差は、従属変数に関する予測値と観測値の差です。生の残差をレポートに含めるには、このチェックボックスが選択されているかを確認してください。生の残差をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。
生の残差をワークシートの列に配置するには、対応するドロップダウンリストから配置先の列番号を選択します。ドロップダウンリストで none を選択し、Raw チェックボックスが選択されている場合は、レポートにはその値が表示されますが、ワークシートには配置されません。
- Standardized Residuals (標準残差):標準残差は、残差をその推定量の標準誤差で割ったものです。残差の標準誤差は、要するに残差の標準偏差ですので、回帰直線周辺のばらつきの尺度となります。標準残差をレポートに含めるには、このチェックボックスが選択されていることを確認してください。標準残差をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。
SigmaPlot は、対応するボックスで指定した信頼区間から外れたデータポイントに対して自動的にフラッグを立てます。例えば、データポイントの中心から外れたデータポイントは、標準残差の値が「大きい」と判断されます。フラッグを立てるデータポイントは、Flag Values > 編集ボックスの値を編集することで変更することができます。提案される残差の値は 2.5 です。
- Studentized Residuals (スチューデント化残差):スチューデント化残差は、データの両極値に対する中央付近の回帰直線の精度の高さを考慮に入れることによって残差を基準化するものです。スチューデント化残差は、スチューデントの t 分布に従う傾向がありますので、t 分布を利用してスチューデント化残差の大きい値を決定することができます。SigmaPlot は、例えば、データポイントの中心から外れたデータポイントに対しては、スチューデント化残差の値が「大きい」というフラッグを自動的に立てます。フラッグで提示されるデータポイントは、回帰母集団の95%信頼区間の外側にあります。
レポートにスチューデント化残差を含めるには、Studentized チェックボックスが選択されていることを確認してください。スチューデント化残差をワークシートに含めたくない場合は、選択されたチェックボックスをクリックしてください。
- Studentized Deleted Residuals (スチューデント化削除残差): スチューデント化削除残差は、スチューデント化残差に似ていますが、該当するデータポイントを使わずに、回帰方程式を計算することで値を求める点が異なります。
スチューデント化削除残差をレポートに含めるには、このチェックボックスが選択されているかを確認んしてください。スチューデント化削除残差をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。
SigmaPlot は、例えば、データポイントの中心から外れたデータポイントに対しては、スチューデント化削除残差の値が「大きい」というフラッグを自動的に立てます。フラッグで提示されるデータポイントは、回帰母集団の95%信頼区間の外側にあります。
※ Note:スチューデント化残差、および、スチューデント化削除残差はいずれも、同じ信頼区間の設定を使って外れ値を判定します。 |
- Report Flagged Values Only (フラッグ値のみレポートする):レポートにフラッグの立てられた標準、および、スチューデント化削除残差しか含めない場合は、Report Flagged Values Only が選択されているかを確認してください。このオプションを解除すると、標準およびスチューデント化残差のすべてがレポートに含まれます。
4.3 Options for Linear Regression: More Statistics
Options for Linear Regression ダイアログの More Statistics タブをクリックすると、信頼区間オプションが表示されます。母集団、回帰、または、両方の信頼区間を設定し、それらをワークシートに保存することができます。
- Confidence Interval for the Population:母集団の信頼区間では、観測データを抽出した母集団が含まれる領域を定義する値の範囲を与えます。
母集団の信頼区間をレポートに含めるには、Population を選択します。母集団の信頼区間をレポートに含めたくなければ、このチェックボックスを外します。
- Confidence Interval for the Regression:回帰直線の信頼区間は、指定した信頼水準で従属変数と独立変数の間に真の平均値の関係が含まれる領域がこの値の範囲によって定義されます。
レポートに回帰の信頼区間を含めるには、Regression チェックボックスが選択されているかを確認し、パーセントボックスに信頼水準の値を入力して指定してください。信頼水準は 1 から 99 までの任意の値にすることができます。提示される区間の信頼水準はいずれも 95 % です。レポートに母集団の信頼区間を含めたくない場合は、選択されたチェックボックスをクリックしてください。
- 信頼区間をワークシートに保存する。信頼区間をワークシートに保存するには、Starting in Column ドロップダウンリストから区間データを保存したい最初の列の列番号を選択します。ワークシートの指定した列以降に選択した区間データが保存されます。
- PRESS Prediction Error (PRESS 予測誤差):PRESS 予測誤差は、回帰方程式がデータにどれだけ良くあてはまっているかを測る尺度です。このチェックボックスを選択した状態にしておけば、PRESS 統計量を用いて方程式の当てはめが評価されます。レポートに PRESS 統計量を含めたくなければ、選択されているこのチェックボックスを解除します。
4.4 Options for Linear Regression: Other Diagnostics
Options for Linear Regression ダイアログボックスの Other Diagnostics タブをクリックすると、Influence オプションが表示されます。
- Influence (影響):Influence オプションは、影響力のあるデータポイントのインスタンスを自動的に検出するものです。影響力がもっとも強いポイントは、データポイントの外れ値です。すなわち、それ以外のデータポイントと一直線上に並ぼうとはしないものです。これらの点は、回帰直線の計算において極端に強い影響を及ぼす可能性があります。影響力のあるポイントを識別し定量化するための影響力の検定には、幾つかの種類が用意されています。
- DFFITS :DFFITS は、データセットの中から i 番目のデータポイントを除外したときに変化する予測値の標準誤差を見積る数です。あるデータポイントの予測値に対する影響力を測るもうひとつの尺度で、回帰係数を計算するのに使用します。
データポイントを除外したとき、その予測値の変化の標準誤差が2以上であれば影響力ありと判断されます。
DFFITS を選択すると、全てのポイントについて DFFITS 値を計算し、影響力のある点、例えば、DFFITS の値が Flag Values > 編集ボックスで指定した値よりも大きい値には、フラッグが立てられます。データの中で影響力が大きい点であることをあらわす標準誤差として提示される値は 2.0 です。影響力のある点として余分なフラッグを立てないようにするには、この値を高くします。影響力のより小さなポイントにフラッグを立てるには、この値を低くします。
- Leverage (てこ比) :Leverage (てこ比) は、あるポイントが回帰方程式の結果に対して影響力をもつ可能性があるか否かを判断するのに使用します。てこ比は、独立変数 (複数可) の値のみに依存します。観測値のてこ比が高ければ、その独立変数は両極値にある傾向があります。そこでは、独立変数の小さな変化が従属変数の予測値に大きな影響を及ぼす可能性があります。
独立変数が k 個、データポイントが n 個あるデータポイントのてこ比の期待値は、(k+1)/n です。観測データのてこ比が期待されるてこ比よりも遥かに大きければ、影響力のあるポイントである可能性があります。
各ポイントのてこ比を計算し、影響力の可能性となるポイント、例えば、予定したてこ比の指定倍数分より大きなてこ比となるポイントに自動的にフラッグを立てるようにするには、Leverage を選択します。予定される回帰のてこ比として提示される値は 2.0 倍です (2(k+1)/n)。影響力の可能性のある点として余分なフラッグを立てないようにするには、この値を高くします。影響力の可能性が小さなポイントにフラッグを立てるには、この値を低くします。
- Cook's Distance (クックの距離):クックの距離は、回帰方程式のパラメータ推定値に対して各ポイントの影響力がいかに大きいかを測る尺度です。クックの距離は、ある点を分析から除外したときに回帰係数の値がどれだけ変化するかを評価します。クックの距離は、独立変数と従属変数の両方の値に依存します。
全てのポイントに対してこの値を計算し、影響力のあるポイント、例えば、指定値よりもクックの距離の値が大きいポイントに対してフラッグを立てるようにするには、Cook's Distance を選択します。提示される値は 4.0 です。クックの距離が 1 より大きければ、その点に影響力が存在する可能性があることを示します。クックの距離が 4 より大きければ、その点はパラメータの推定値に対して大きな影響力があることを示します。影響力のある点として余分なフラッグを立てないようにするには、この値を高くします。影響力の小さなポイントにフラッグを立てるには、この値を低くします。
- Report Flagged Values Only (フラッグを立てた値のみレポートする) :影響力ポイント検定でフラッグが立てられた影響力のポイントだけをレポートに含める場合は、Report Flagged Values Only を選択します。このオプションを解除すると影響力のある全てのポイントがレポートに含まれることになります。
4.4.1 影響点の対処法
影響点には次の2つの原因があります:
- 観測データやデータ入力のエラーによってそのデータポイントに何らかの瑕疵が生じている場合。
- モデル自体に誤りがある場合。
データの収集や入力に誤りがあった場合は、その値を修正してください。修正する値がわからなければ、そのデータポイントの削除を判断できるかもしれません。モデルに誤りがあるようであれば、回帰の独立変数を変更するか、非線形回帰をお試しください。
- Power (検出力) :回帰の検出力は、観測されたデータの中に関係性を検出する能力です。アルファ (α) は誤って関係ありと判断されることを許容する確率です。
線形回帰データの検出力を計算するには、Power を選択します。アルファ値を変更するには、Alpha Value 編集ボックスの数値を編集します。提示される値は α = 0.05 です。この設定は、誤りを許容する確率が 20分の1であることを示します。すなわち、P < 0.05 であれば有意な関係があると判断できることになります。
アルファの値を小さくすると、有意な関係があると結論付ける要件がそれだけ厳格なものになりますが、関係があるにもかかわらず関係がないと結論付ける可能性が高くなります。アルファの値を大きくすると、関係があるとの結論付けが容易になりますが、それだけ誤判定をレポートする危険性が高くなります。
5. 単純線形回帰を実行する
単純線形回帰 (Simple Linear Regression) を実行するには、検定するデータを選択する必要があります。検定ウィザードの Select Data パネルを使用して、検定したいデータを含むワークシートの列を選択します。
線形回帰を実行するには:
- 検定を実行する前にデータを選択したい場合は、データ範囲をマウスポインタでドラッグしておきます。
- Analysis タブをクリックします。
- SigmaStat グループの Tests ドロップダウンリストから以下を選択します:
Regression → Linear
検定ウィザードの Select Data パネルが表示されます。検定を選択する前に列を選択していれば、Selected Columns リストにその列が表示されます。列を選択していなければ、データ選択の指示がダイアログボックスに表示されます。
- Selected Columns リストに別のワークシート列を割り当てたい場合には、ワークシートで直接その列を選択するか、Data for Dependent または Data for Independent ドロップダウンリストからその列を選択します。
Selected Columns リストの一行目に割り当てられるのは最初に選択した列で、リストの independent 行に2列目が割り当てられます。各行には、選択した列の番号またはタイトルが表示されます。dependent と independent に選択できるデータはそれぞれ1列のみです。
- 選択した内容を変更するには、リストの割り当てを選択したあと、ワークシートから列を選択しなおします。Selected Columns リストの内容をダブルクリックすることによって、列の割り当てを消去することもできます。
- Finish をクリックすると、回帰が実行されます。正規性と等分散性、残差の独立性を検定するよう指定している場合、SigmaPlot は、正規性 (Shapiro-Wilk または Kolmogorov-Smirnov)、等分散性、残差の独立性を検定します。もしデータに関するこれらの検定のいずれかが棄却されると、SigmaPlot によりその旨が報告されます。検定が完了すると、Simple Linear Regression レポートが表示されます。予測値 (Predicted) と残差 (Residual) をワークシートに配置するよう選択している場合は、指定した列にそれらが配置され、それぞれラベルが付けられます。
6. 単純線形回帰の結果を解釈する
線形回帰のレポートには、方程式と算出された係数、R, R2、および、調整済み R2、従属変数の推定量に関する各種統計値のテーブル、および、回帰方程式と個々の係数の P 値が表示されます。
レポートに表示されるその他の結果は、Options for Linear Regression ダイアログボックスで有効または無効にすることができます。
結果の説明
数値による結果に加えて、拡張された結果の説明が表示されることがあります。この説明テキストは、Options ダイアログボックスで有効または無効にすることができます。表示される小数点以下の桁数についても Options ダイアログボックスで指定できます。
6.1 回帰方程式
切片 (定数) と傾きの係数の値を持つ直線の方程式です。
この方程式は、 y=b0+b1x の形式になります。ここで、 y は従属変数、x は独立変数、b0 は定数または切片 (x = 0 のときの従属変数の値、回帰直線が y 軸と交わる点)、そして、b1 は傾き (x の1単位あたりの増加に対する y 値の増分) です。
観測数 N、および、回帰から除外された欠損値を含む観測数 (もしある場合) も表示されます。
6.2 重相関係数 R、決定係数 R Squared、自由度調整済み決定係数 Adj R Squared
- 重相関係数 (multiple correlation coefficient) R と決定係数 (coefficient of determination) R2 は、いずれも回帰モデルがどれだけうまくデータを説明しているかを評価する指標です。R 値が 1 に近いほど、その方程式が独立変数と従属変数の間の関係をうまく説明していることをあらわします。
独立変数の値から従属変数の値を全く予測できないときは、R が 0 となります。また、独立変数から従属変数を完全に予測できるときは 1 となります。
- 自由度調整済み決定係数:自由度調整済み決定係数 (adjusted R2, R2adj) も、回帰モデルがどれだけうまくデータを説明しているかを評価する指標ですが、独立変数の数に自由度を反映させます。R2adj の値が大きいほど (1 に近いほど) その方程式が独立変数と従属変数の間の関係をうまく説明していることをあらわします。
6.3 推定量の標準誤差
- 推定量の標準誤差 (standard error of the estimate) sy|x は、推定する母集団の回帰直線に対する実際のばらつきを評価する指標です。推定する母集団は、観測される標本の2標準誤差の範囲におさまるのが一般的です。
6.4 統計量のサマリーテーブル
- Coefficients:回帰モデルの定数 (切片) と独立変数の係数 (傾き) の値が一覧で表示されます。
- Standard Error:切片と傾きの標準誤差 (Std. Error) は、回帰係数の推定量の精度をはかるの尺度です (平均の標準誤差と類似)。推定する母集団の真の回帰係数は、観測された標本の係数の2標準誤差の間に収まるのが一般的です。これらの値は、回帰の t 値と信頼区間の計算に使用されます。
- t 統計量:t 統計量は、独立変数の係数がゼロである、すなわち、独立変数が従属変数の予測に寄与しないとする帰無仮説を検定します。t は、回帰係数 (regression coefficient) をその標準誤差 (standard error) で割った比です。
t 値が大きければ、その独立変数を従属変数の予測に使用できる (例えば、係数はゼロではない) と結論づけることができます。
- P 値: P は、t に関する P 値を計算したものです。P 値は、回帰係数がゼロではないと誤って結論付ける確率です (すなわち、t に基づいて帰無仮説を誤って棄却する、すなわち、第1種の過誤 (Type I error) を犯す確率です)。P 値が小さいほど、係数がゼロでない確率は高くなります。
伝統的に P < 0.05 であれば、独立変数を従属変数の予測に使うことができると結論付けることができます。
6.5 Beta (標準化係数 β)
独立変数の係数を無次元の値に標準化したものです。
ここで、b1 = 回帰係数、sx = 独立変数 x の標準偏差、そして、 sy = 従属変数 y の標準偏差です。
この結果は、Options for Linear Regression ダイアログボックスで Standardized Coefficients オプションを無効にしない限り表示されます。
6.6 分散分析表
ANOVA テーブル (分散分析表) には、回帰の ANOVA 統計量と、それに対応する F 値が表示されます。
- DF (Degrees of Freedom:自由度):自由度 (DF: Degrees of freedom) は、測定データや回帰方程式の変数の数をあらわします。
- 回帰 (regression) の自由度は、回帰方程式にある独立変数の測度です (単純線形回帰では常に 1 になります)。
- 残差 (residual) の自由度は、観測データの数から方程式の項の数を差し引いた測度です。
- 全体 (total) の自由度は、全観測データの測度です。
- SS (Sum of Squares:平方和) :平方和 (SS: Sum of Squares) は、従属変数のばらつきの測度です。
- 回帰 (Regression) の平方和 (SSreg ) は、従属変数の平均値からの回帰直線の差の測度です。
- 残差 (Residual) の平方和 (SSres )は、残差サイズの測度、すなわち、従属変数の測定値と回帰モデルで予測された値の差です。
- 全体 (total) の平方和 (SStot ) は、従属変数全体の平均値に関する変動の測度です。
- MS (Mean Square:平均平方):平均平方 (MS: Mean Square) は、母分散に関する2つの推定値を求めます。これら2つの分散推定値の比較が分散分析の基礎となります。
回帰 (Regression) の平均平方は、従属変数の平均値からの回帰のばらつきの測度です。次式で与えられます:
残差平均平方 (residual mean square) は、回帰直線に関する残差のばらつきの測度です。次式で与えられます:
残差平均平方は、S 2y|xとも等しくなります。
- F 統計量:F 検定の統計量は、従属変数の予測における独立変数の寄与 (contribution) の尺度です。次の比率で表されます:
F が大きな値である場合は、独立変数が従属変数の予測に寄与していると結論付けることができます (すなわち、係数の少なくとも1つがゼロでなく、かつ、説明できないばらつき (unexplained variability) が、無作為抽出した従属変数の平均に関するばらつきの期待値より小さい場合) 。F 比が 1 に近いときは、変数間には関連性がないと結論付けることができます (すなわち、このデータは、すべての標本がランダムに分布しているという帰無仮説と合致します)。
- P Value:P 値は、従属変数と独立変数の間に誤って関連性があると結論付ける確率です (すなわち、F に基づいて帰無仮説を誤って棄却する、すなわち、第1種の過誤 (Type I error) を犯す確率です)。P 値が小さいほど、関連性のある確率が高くなります。
伝統的に P < 0.05 であれば、独立変数を従属変数の予測に使うことができると結論付けることができます。
※ Tip:単純線形回帰では、ANOVA の P 値は、傾き係数の t に関連する P 値と同じです。また、t が傾きに関する t 値であるとき F=t2 が成り立ちます。 |
6.7 PRESS 統計量
- PRESS (Predicted Residual Error Sum of Squares:予測残差平方和) は、回帰モデルが観測データをどれだけうまく予測できるかを評価する尺度です。
PRESS 統計量は、予測誤差 (予測値と実測値の差) の二乗を観測データ毎に合計するもので、推定する回帰モデルの計算からは当該データは除外して算出します。
PRESS 統計量の重要な用途のひとつにモデルの比較があります。同一データに幾つかの回帰モデルを当てはめた場合、PRESS 統計量の最も小さいモデルが最も予測能力が高いものとなります。
6.8 Durbin-Watson 統計量
- Durbin-Watson 統計量は、残差間の相関の測度です。残差間に相関がない場合、Durbin-Watson 統計量は 2 になります。この値が 2 から離れるほど、残差間の相関の尤度 (likelihood) は高くなります。この結果は、Regression Options ダイアログボックスでこれを選択していれば表示されます。
回帰モデルでは、その残差が互いに独立していると仮定します。Durbin-Watson 検定はこの前提条件のチェックに使用します。Durbin-Watson 値が 2 から Options for Linear Regressionで指定した値だけ外れる場合、レポートに警告が表示されます。提示されるトリガーとなる差の値は、0.50 以上です (例えば、Durbin-Watson 統計量が 1.5 を下回るか 2.5 を上回る場合です)。
6.9 正規性検定
正規性検定 (Normality Test) の結果には、元になる母集団が回帰直線の周囲に正規分布しているという仮説の検定にそのデータが合格 (Passed) したか否か (failed)、および、この検定で算出される P 値が表示されます。いずれの回帰でも、元になる母集団が回帰直線の周囲に正規分布すると仮定します。正規性検定が棄却された場合は、レポートに警告が表示されます。この結果は、Options for Linear Regression ダイアログボックスで正規性検定を無効にしない限り表示されます。
正規性検定が棄却された場合は、影響力のある外れ値が存在するか、回帰モデルに誤りがある可能性があります。
6.10 等分散検定
等分散検定 (Constant Variance Test) の結果には、元になる母集団の従属変数のばらつきが独立変数の値にかかわらず一定であるという仮説の検定にそのデータが合格 (Passed) したか否か (failed)、およびこの検定で算出される P 値が表示されます。等分散検定が棄却された場合は、レポートに警告が表示されます。
等分散検定が棄却された場合、別のモデル (例えば、データの形状により近いモデル) の使用を検討するか、または、独立変数を変換してばらつきを安定化することでより精度の高い回帰方程式のパラメータ推定値を得ることを検討してください。
6.11 検出力
この結果は、オプションダイアログボックスでこのオプションを選択している場合に表示されます。回帰モデルの検出力 (Power)、すなわち感度は、推定する母集団に関連性がある場合、それらの関係をモデルが正しくあらわす確率です。
回帰モデルの検出力は、測定データの数、誤って差があるとレポートする危険率 (アルファ)、および回帰に関連する相関係数 r に影響を受けます。
- Alpha (アルファ):アルファ (α) は、そのモデルが本当は誤っているのに正しいと結論付けてしまうことを許容する確率です。アルファ (α) の誤りを、第1種の過誤 (Type I error) と呼ぶこともあります (第1種の過誤は、関係がないという仮説が真であるのに、棄却してしまう場合です)。
この値は、オプションダイアログボックスの Power で設定します。提示される値は α = 0.05 で、20分の1の確率で誤りを許容するという設定になります。アルファ (α) の値を小さくするほど、そのモデルが正しいと結論付ける要件はより厳密になりますが、反対に、そのモデルが実際は正しいにもかかわらず誤りであると結論づけてしまう可能性は高くなります (第2種の過誤)。アルファの値を大きくしてモデルを正しいと結論付ける条件を緩和すると、誤ったモデルを採用してしまう危険率も高くなります (第1種の過誤)。
6.12 回帰診断
回帰診断の結果には Options for Regression ダイアログボックスで選択した予測値、残差、および、その他の診断結果のみが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付ける残差の値は、Options for Linear Regression ダイアログボックスで設定します。
Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされます。その観測データのその他の結果は全て表示されます。(※ v14 では Report flagged values only)
- Row (行):これは、測定データの行番号です。
- Predicted Values (予測値) :これは、各測定データについて、回帰モデルによって予測された従属変数の値です。
- Residuals (残差):生の残差で、従属変数に関する測定値と予測値の差です。
- Standardized Residuals (標準化残差):標準化残差 (Standardized Residuals) は、生の残差を推定量の標準誤差 S y|x で割ったものです。
この残差が回帰モデルの周囲に正規分布していれば、標準化残差の約 66% は、-1 から +1 の間の値をとり、標準化残差の約 95% は、-2 から +2 の間の値をとります。標準化残差の値が大きいほど、その点は回帰モデルから離れていることを示します。値が -2.5 より小さい場合、もしくは、2.5 より大きい場合は、そのケースが外れ値である可能性があります。
- Studentized Residuals (スチューデント化残差):スチューデント化残差 (Studentized residual) は、従属変数の予測値の信頼性についてデータセットの中央を高く考慮する標準化残差です。極端なデータポイント (独立変数の最小値と最大値を持つデータポイント) の残差の値に重みを付けることによって、標準化残差に比べて外れ値の検出の感度が高くなります。
回帰に関する指定した信頼区間の外側にあるスチューデント化 (Studentized) およびスチューデント化削除 (Studentized deleted) 残差はいずれも、外れ値としてフラッグが付けられます。提示される信頼区間は 95% です。
この残差は、全データを使って推定量の標準誤差を計算することから、内部スチューデント化残差 (internally Studentized residual) とも言われています。
- Studentized Deleted Residuals (スチューデント化削除残差):外部スチューデント化残差 (externally Studentized residual) とも言われる、スチューデント化削除残差 (Studentized deleted residual) は、推定量の標準誤差 Sy|x(-i)を使用し、この残差に関係するデータポイントを削除した後に計算を行うスチューデント化残差です。分散の計算からこのデータポイントを削除することによって、外れ値に対する影響が大きくなります。
回帰に関する指定した信頼区間の外側にあるスチューデント化 (Studentized) およびスチューデント化削除 (Studentized deleted) 残差はいずれも、外れ値としてフラッグが付けられます。提示される信頼区間は 95% です。
スチューデント化削除残差は、スチューデント化残差よりも外れ値に対して遥かに大きな値を算出するので、スチューデント化残差に比べて外れ値の検出の感度が高くなります。
6.13 影響診断
影響診断の結果にはオプションダイアログボックスの Other Diagnostics タブで選択した結果の値だけが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付ける残差の値は、Options for Linear Regression ダイアログボックスの Other Diagnostics タブで設定します。
Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされますが、その観測データのその他の結果も表示されます。(※ v14 では Report flagged values only)
- Row (行):これは、測定データの行番号です。
- Cook’s Distance (クックの距離):クックの距離 (Cook’s Distance) は、回帰方程式のパラメータ推定において各点が有する影響力の大きさを評価する尺度です。これは、評価する点を分析から除外したとき回帰係数の値がどれだけ変化するかをはかるものです。
値が 1 より大きい場合は、その点に影響力がある可能性を示します。クックの距離が 4 より大きい場合、その点は、パラメータ推定値に対して大きな影響があることを示します。ある点のクックの距離が指定した値より大きい場合、影響力があるとしてフラッグが付けられます。提示される値は 4 です。
- Leverage (てこ比):レバレッジ (Leverage:てこ比) の値は、影響力をもつ可能性のある点を識別します。観測データのレバレッジが期待されるレバレッジより大きい場合は、その点に影響力がある可能性があります。提示されるてこ比の値は、期待値の 2.0 倍です。
データポイントのてこ比の期待値は次式であらわされます:
ここで、k は独立変数の数、n はデータポイントの数です。
レバレッジの計算には従属変数しか使用しませんので、独立変数の極値 (大きい値と小さい値) がレバレッジの高い点になる傾向があり、このような点では、独立変数のわずかな変化が従属変数の予測値に大きな影響を与える可能性があります。
- DFFITS:DFFITS 統計量は、回帰予測におけるデータポイントの影響力の測度です。あるデータポイントに関して、回帰係数を計算する前にその測定値をデータセットから除外したときの標準誤差の違いを推定した数です。
データポイントを除外したときに指定した標準誤差より大きく変化する予測値には、影響力があるというフラッグがつけられます。提示される標準誤差の値は、2.0 です。
6.14 信頼区間
これらの結果は、Regression Options ダイアログボックスで選択している場合に表示されます。信頼区間にゼロが含まれていなければ、指定した信頼水準でその係数はゼロではないと結論付けることができます。これは、 P < α (alpha) としても表現できます。ここで、α は、係数はゼロではないと誤って結論付けてもよしとする確率で、信頼区間は 100(1 - α) となります。
信頼水準は、1 から 99 までの任意の値を指定できます。提示される信頼水準はいずれの区間についても 95% です。
- Row (行) :これは、測定データの行番号です。
- Predicted (予測値) :この列は回帰モデルによって予測される測定データ毎の従属変数の値です。
- Regression:回帰直線の信頼区間では、指定した信頼水準について従属変数と独立変数との間の真の関係を含む領域を計算した変数の値の範囲が表示されます。
- Population:母集団の信頼区間では、指定した信頼水準について観測データを抽出した母集団を含む領域を計算した変数の値の範囲が表示されます。
7. 単純線形回帰のレポートグラフ
単純線形回帰の結果を使用して、以下に示す最大5つのグラフを作成することができます:
7.1 線形回帰のレポートグラフを作成する
Linear Regression report データのグラフを作成するには:
- 出力されたレポートを表示した状態で、Report タブをクリックします。
- Result Graphs グループにある Create Result Graph をクリックします。
Create Result Graph ダイアログボックスに Linear Regression の結果で使用できるグラフのタイプが表示されます。
- Graph Type リストから作成したいグラフのタイプを選択して、OK をクリックします。
指定したグラフがグラフウィンドウに表示されます。詳しくは、レポートグラフをご覧ください。