28.5 非線形回帰レポートのオプションを設定する
Report Options for Nonlinear Regression ダイアログボックスで設定できる内容は以下のとおりです:
- Assumption checking (前提条件のチェック) オプションの設定
- 表示する残差 (Residuals) の指定、および、それらのワークシートへの保存設定
- 信頼区間と予測区間の表示、および、それらのワークシートへの保存設定
- PRESS 予測因子 と 標準化回帰係数 (standardized regression coefficients) の表示設定
- データポイントの外れ値または影響力を識別する検定の指定
- 検出力 (Power) の表示
| ※ Note: Report Options for Nonlinear Regression ダイアログボックスを開くには、Regression Wizard – Numeric Output Options パネルから Report をクリックします。 |
- Assumption Checking (前提条件のチェック)
- Residuals (各種残差)
- More Statistics (その他の統計量)
- Other Diagnostics (その他の診断)
Assumption Checking (前提条件のチェック)
Report Options for Nonlinear Regression から Assumption Checking (前提条件のチェック) タブを選択すると、Normality (正規性)、Constant Variance (等分散性)、Durbin-Watson オプションが表示されます。これらのオプションは、データに関して線形回帰が成立する3つの前提条件をチェックすることによって、お持ちのデータが回帰分析にふさわしいかを検定します。非線形回帰で前提とするのは以下のとおりです:
- 標本の元になる母集団が回帰の周囲に正規分布していること
- 元になる母集団における従属変数の分散が独立変数 (複数可) の値とは無関係に一定であること
- 残差が互いに独立していること
前提条件のチェックオプションはデフォルトではすべて選択されています。使用するデータが等分散の正規分布に従う母集団からサンプリングされたもので、しかも、それぞれの残差が互いに独立していることが確実でなければ、これらのオプションを無効にすることはできません。
- Normality Testing (正規性の検定):
SigmaPlot では、母集団の正規分布の検定に Kolmogorov-Smirnov 検定を使用します。
- Constant Variance Testing (等分散性の検定):
SigmaPlot では、等分散性の検定に残差の絶対値と観測された従属変数の値との間のスピアマンの順位相関 (Spearman rank correlation) を計算します。この相関関係が有意であれば等分散性の前提条件は棄却されますので、その場合は、別モデル (例えば、データの形状により密接に従うようなモデル) での試行を検討するか、単一または複数の独立変数の分散を安定化する変換を行う必要があります。
- P Values for Normality and Constant Variance (正規性と等分散性の P 値):
P 値は、データが正規分布に従っていないと誤って結論付けてしまう確率を決定します (そのデータは正規分布に従っているという帰無仮説を誤って棄却してしまうリスクが P 値です)。ここで設定した P 値よりも、検定で算出された P 値が大きい場合、その仮説は正しいと判断されることになります。正規性と等分散のいずれか又は両方の要件をより厳密なものにするには、この P 値を大きくします。パラメトリックな統計手法では、仮説の棄却が比較的ロバスト (頑健) に検出されることから、SigmaPlot ではこの値を 0.050 としています。P 値をこれよりも大きくすると (例えば、0.100)、そのデータに正規性がないとの判定が出やすくなります。正規性と等分散のいずれか又は両方の要件を緩和するには、P 値を小さくします。正規性があるという仮説を棄却するための P 値に小さい値しか要求しないということは、前提とする正規分布からデータが外れていても、それが非正規であると判定される前に、それだけ広く受け入れたいとする意思があることを意味します。例えば、P 値を 0.050 とした場合、あるデータを非正規であると判定するには、0.100 の場合と比べてそれだけ大きく正規性を逸脱していなければなりません。
| ※ Note: この前提条件の検定では、非正規や等分散性でない母集団のデータ検出においてロバストな処理がなされますが、データ分布が極端な条件では検出できない場合があります。しかし、このような条件の場合は、前提条件の自動検定に頼らずにデータを視覚的に調べることで容易に検出することができます。 |
- Durbin-Watson 統計量:
SigmaPlot では、残差が互いに独立していることを検定するのに Durbin-Watson 統計量を使用します。Durbin-Watson 統計量は、残差間の系列相関を測定するものです。この残差は、多くの場合、独立変数が時間で、かつ、観測値と回帰直線との間のある時点のずれが、前の時点におけるずれと関連性がある場合に相関します。残差間に相関性がない場合、Durbin-Watson 統計量は 2 になります。
- Difference from 2 の値:
系列相関の根拠とみなす 2.0 からの許容できるずれを Difference from 2.0 ボックスに入力します。算出される 2.0 からのずれである Durbin-Watson 統計量が入力した値より大きければ、残差に独立性がない可能性があることが SigmaPlot によって警告されます。例えば、このずれの値を提示された値 0.50 にすると、Durbin-Watson 統計量の値が 2.5 より大きいか、1.5 より小さい場合に残差に相関性があるというフラッグが立てられます。独立性の条件を厳しくするには、difference from 2.0 の値を小さくします。
独立性の条件を緩和するには、difference from 2.0 の値を大きくします。
Residuals (各種残差)
Report Options for Nonlinear Regression ダイアログボックスの Residuals タブをクリックすると、Predicted Values, Raw, Standardized, Studentized, Studentized Deleted, および Report Flagged Values Only オプションが表示されます。
- Studentized Residuals (スチューデント化残差)
スチューデント化残差は、データの両極値に対する中央付近の回帰直線の精度の高さを考慮に入れることによって残差を基準化するものです。スチューデント化残差は、スチューデントの t 分布に従う傾向がありますので、t 分布を利用してスチューデント化残差の大きい値を決定することができます。SigmaPlot は、例えば、データポイントの中心から外れたデータポイントに対しては、スチューデント化残差の値が「大きい」というフラッグを自動的に立てます。フラッグで提示されるデータポイントは、回帰母集団の95%信頼区間の外側にあります。レポートにスチューデント化残差を含めるには、Studentized チェックボックスが選択されていることを確認してください。スチューデント化残差をワークシートに含めたくない場合は、選択されたチェックボックスをクリックしてください。
- Studentized Deleted Residuals (スチューデント化削除残差):
スチューデント化削除残差は、スチューデント化残差に似ていますが、該当するデータポイントを使わずに、回帰方程式を計算することで値を求める点が異なります。スチューデント化削除残差をレポートに含めるには、このチェックボックスが選択されているかを確認んしてください。スチューデント化削除残差をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。SigmaPlot は、例えば、データポイントの中心から外れたデータポイントに対しては、スチューデント化削除残差の値が「大きい」というフラッグを自動的に立てます。フラッグで提示されるデータポイントは、回帰母集団の95%信頼区間の外側にあります。
| ※ Note: スチューデント化残差、および、スチューデント化削除残差はいずれも、同じ信頼区間の設定を使って外れ値を判定します。 |
- Raw Residuals (生の残差)
生の残差は、従属変数に関する予測値と観測値の差です。生の残差をレポートに含めるには、このチェックボックスが選択されているかを確認してください。生の残差をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。生の残差をワークシートの列に配置するには、対応するドロップダウンリストから配置先の列番号を選択します。ドロップダウンリストで none を選択し、Raw チェックボックスが選択されている場合は、レポートにはその値が表示されますが、ワークシートには配置されません。
- Predicted Values (予測値)
このオプションを使用すると、独立変数の観測値ごとに従属変数の予測値が計算され、その結果がワークシートに保存されます。予測値をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。予測値をワークシートの列に配置するには、対応するドロップダウンリストから配置先の列番号を選択します。ドロップダウンリストで none を選択し、Predicted Values チェックボックスが選択されている場合は、レポートにはその値が表示されますが、ワークシートには配置されません。
- Standardized Residuals (標準残差)
標準残差は、残差をその推定量の標準誤差で割ったものです。残差の標準誤差は、要するに残差の標準偏差ですので、回帰直線周辺のばらつきの尺度となります。標準残差をレポートに含めるには、このチェックボックスが選択されていることを確認してください。標準残差をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。
- Flag Values >
SigmaPlot は、対応するボックスで指定した信頼区間から外れたデータポイントに対して自動的にフラッグを立てます。例えば、データポイントの中心から外れたデータポイントは、標準残差の値が「大きい」と判断されます。フラッグを立てるデータポイントは、Flag Values > 編集ボックスの値を編集することで変更することができます。提案される残差の値は 2.5 です。
- Report Flagged Values Only (フラッグ値のみレポートする)
レポートにフラッグの立てられた標準、および、スチューデント化削除残差しか含めない場合は、Report Flagged Values Only が選択されているかを確認してください。このオプションを解除すると、標準およびスチューデント化残差のすべてがレポートに含まれます。
More Statistics (その他の統計量)
Confidence (信頼)、および、Prediction (予測) 区間、PRESS Prediction Error (PRESS 予測誤差) のオプションを表示するには、Report Options for Nonlinear Regression ダイアログボックスの More Statistics タブをクリックします。
- Confidence Intervals (信頼区間)
母集団、回帰、または両方の信頼区間を設定し、それらをワークシートに保存することができます。
- Prediction Interval (予測区間):
母集団の信頼区間は、観測値を取り出す母集団を含む領域がこの値の範囲によって定義されます。レポートに母集団の信頼区間を含めるには、Population チェックボックスが選択されていることを確認してください。母集団の信頼区間をワークシートに含めたくなければ、選択されたチェックボックスをクリックします。
- Confidence Interval (信頼区間):
回帰直線の信頼区間は、指定した信頼水準で従属変数と独立変数の間に真の平均値の関係が含まれる領域がこの値の範囲によって定義されます。
レポートに回帰の信頼区間を含めるには、Regression チェックボックスが選択されているかを確認し、信頼水準をボックスにパーセントの値を入力して指定してください。信頼水準は 1 から 99 までの任意の値にすることができます。提示される区間の信頼水準はいずれも 95 % です。
レポートに母集団の信頼区間を含めたくない場合は、選択されたチェックボックスをクリックしてください。
信頼区間をワークシートに保存する。信頼区間をワークシートに保存するには、Starting in Column ドロップダウンリストから区間データを保存したい最初の列の列番号を選択します。ワークシートの指定した列以降に選択した区間データが保存されます。
- PRESS Prediction Error (PRESS 予測誤差)
PRESS 予測誤差は、回帰方程式がデータにどれだけ良くあてはまっているかを測る尺度です。このチェックボックスを選択した状態にしておけば、PRESS 統計量を用いて方程式の当てはめが評価されます。レポートに PRESS 統計量を含めたくなければ、選択されているこのチェックボックスをクリックします。
- AICc — Akaike Information Criterion (赤池の情報量基準)
赤池の情報量基準は、与えられたデータセットに対する回帰モデルの当てはめ性能を相対的に測定する手法を提供します。
Other Diagnostics (その他の診断)
Influence (影響), DFFITS, Leverage (てこ比), Cook’s Distance (クックの距離) および Power (検出力) に関するオプションを表示するには、Report Options for Nonlinear Regression ダイアログボックスの Other Diagnostics タブをクリックします。
Influence (影響)
Influence オプションは、影響力のあるデータポイントのインスタンスを自動的に検出するものです。影響力がもっとも強いポイントは、データポイントの外れ値です。すなわち、それ以外のデータポイントと一直線上に並ぼうとはしないものです。これらの点は、回帰直線の計算において極端に強い影響を及ぼす可能性があります。影響力のあるポイントを識別し定量化するための影響力の検定には、幾つかの種類が用意されています。
- DFFITS
DFFITS は、データセットの中から i 番目のデータポイントを除外したときに変化する予測値の標準誤差を見積る数です。あるデータポイントの予測値に対する影響力を測るもうひとつの尺度で、回帰係数を計算するのに使用します。データポイントを除外したとき、その予測値の変化の標準誤差が2以上であれば影響力ありと判断されます。
DFFITS を選択すると、全てのポイントについて DFFITS 値を計算し、影響力のある点、例えば、DFFITS の値が Flag Values > 編集ボックスで指定した値よりも大きい値には、フラッグが立てられます。データの中で影響力が大きい点であることをあらわす標準誤差として提示される値は 2.0 です。影響力のある点として余分なフラッグを立てないようにするには、この値を高くします。影響力のより小さなポイントにフラッグを立てるには、この値を低くします。
- Leverage (てこ比)
Leverage (てこ比) は、あるポイントが回帰方程式の結果に対して潜在的に影響力をもつかどうかを識別するのに使用します。てこ比は、独立変数 (複数可) の値のみに依存します。観測値のてこ比が高ければ、その独立変数は両極値にある傾向があります。そこでは、独立変数の小さな変化が従属変数の予測値に大きな影響を及ぼす可能性があります。各ポイントのてこ比を計算し、影響力の可能性となるポイント、例えば、予定したてこ比の指定倍数分より大きなてこ比となるポイントに自動的にフラッグを立てるようにするには、Leverage を選択します。予定される回帰のてこ比として提示される値は 2.0 倍です。影響力の可能性のある点として余分なフラッグを立てないようにするには、この値を高くします。影響力の可能性が小さなポイントにフラッグを立てるには、この値を低くします。
- Cook’s Distance (クックの距離)
クックの距離は、回帰方程式のパラメータ推定値に対して各ポイントの影響力がいかに大きいかを測る尺度です。クックの距離は、ある点を分析から除外したときに回帰係数の値がどれだけ変化するかを評価します。クックの距離は、独立変数と従属変数の両方に依存します。全てのポイントに対してこの値を計算し、影響力のあるポイント、例えば、指定値よりもクックの距離の値が大きいポイントに対してフラッグを立てるようにするには、Cook’s Distance を選択します。提示される値は 4.0 です。クックの距離が 1 より大きければ、その点に影響力が存在する可能性があることを示します。クックの距離が 4 より大きければ、その点はパラメータの推定値に対して大きな影響力があることを示します。影響力のある点として余分なフラッグを立てないようにするには、この値を高くします。影響力の小さなポイントにフラッグを立てるには、この値を低くします。
- Power (検出力)
回帰の検出力は、観測されたデータの中に関係性を検出する能力です。アルファは誤って関係ありと判断されることを許容する確率です。線形回帰データの検出力を計算するには、Power を選択します。アルファ値を変更するには、Alpha Value 編集ボックスの数値を編集します。提示される値は α = 0.05 です。この設定は、誤りを許容する確率が 20分の1であることを示します。すなわち、P < 0.05 であれば有意な関係があると判断できることになります。
- Report Flagged Values Only (フラッグを立てた値のみレポートする)
影響力ポイント検定でフラッグが立てられた影響力のポイントだけをレポートに含める場合は、Report Flagged Values Only を選択します。このオプションを解除すると影響力のある全てのポイントがレポートに含まれることになります。