23.2 単純線形回帰

線形回帰 (Linear Regression) を使うのは:

独立変数とは、予測変数とも呼ばれるもので、時間や温度といった既知の変数です。独立変数を変動させると、それに対応する従属変数 (応答変数ともいう) の値も決まります。独立変数が複数あることが既知の場合は、多重線形回帰 (multiple linear regression) を使います。

  1. 単純線形回帰について
  2. 単純直線回帰を実行する
  3. 単純線形回帰のデータを配置する
  4. 単純線形回帰オプションを設定する
    1. Options for Linear Regression: Assumption Checking
    2. Options for Linear Regression: Residuals
    3. Options for Linear Regression: More Statistics
    4. Options for Linear Regression: Other Diagnostics
      1. 影響点の対処法
  5. 単純線形回帰を実行する
  6. 単純線形回帰の結果を解釈する
    1. 回帰方程式
    2. 重相関係数 R、決定係数 R Squared、自由度調整済み決定係数 Adj R Squared
    3. 推定量の標準誤差
    4. 統計量のサマリーテーブル
    5. Beta (標準化係数 β)
    6. 分散分析表
    7. PRESS 統計量
    8. Durbin-Watson 統計量
    9. 正規性検定
    10. 等分散検定
    11. 検出力
    12. 回帰診断
    13. 影響診断
    14. 信頼区間
  7. 単純線形回帰のレポートグラフ
    1. 線形回帰のレポートグラフを作成する

 

1. 単純線形回帰について

線形回帰では、独立変数と従属変数との間に関連性があること、すなわち、直交座標系にそれらのグラフを作成すると直線になることが仮定されます。線形回帰では、与えられた独立変数に関する観測値から、その従属変数の値をもっともうまく説明する、すなわち、予測する直線を求めます。

単純線形回帰で使用する方程式は、直線の方程式、すなわち、y=b0+b1x です。ここで、 y は従属変数、x は独立変数、b0 は切片、すなわち定数項 (x=0 のときの従属変数の値、回帰直線が y 軸と交わる点)、そして、b1 は傾き、すなわち、回帰係数 (x の単位あたりの増加に対する y 値の増加) です。x の値が増加すると、それに対応する y の値も b1 の符号に応じて b1 だけ増加または減少します。

線形回帰はパラメトリック検定のひとつです。すなわち、独立変数の値が与えられると、その従属変数の値は、回帰直線の周囲に等しい分散を持つ正規分布に従うことが仮定されます。

 

2. 単純直線回帰を実行する

単純直線回帰を実行するには:

  1. ワークシートに適切なデータを入力または配置します。詳しくは、単純線形回帰のデータを配置するをご覧ください。

  2. 必要があれば、Linear Regression オプションを設定します。

  3. Analysis タブをクリックします。

  4. SigmaStat グループにある Tests ドロップダウンリストから以下を選択します:

    RegressionLinear

  5. 検定を実行します。

  6. レポートグラフを作成します。詳しくは、単純線形回帰のレポートグラフをご覧ください。

 

3. 単純線形回帰のデータを配置する

測定された従属変数のデータを1列に、それに対応する独立変数のデータを第2列に配置します。欠損値を含む観測データは無視されます。また、どちらの列も長さを同じにする必要があります。

 

4. 単純線形回帰オプションを設定する

線形回帰オプションを使うのは:

 

線形回帰オプションを変更するには:

  1. 検定オプションの変更後に検定を実行するに際して、検定の実行前にデータを選択しておきたい場合は、対象とするデータ列をポインターでドラッグしておきます。

  2. Analysis タブを選択します。

  3. SigmaStat グループの Options をクリックします。 Options for Linear Regression ダイアログに以下の4つのタブが表示されます:

    1. Assumption Checking:Assumption Checking タブをクリックすると、Normality (正規性)、Constant Variance (等分散性)、および Durbin-Watson オプションに戻ります。詳しくは、Options for Linear Regression: Assumption Checking をご覧ください。

    2. Residuals:Residuals タブをクリックすると、残差オプションが表示されます。詳しくは、Options for Linear Regression: Residuals をご覧ください。

    3. More Statistics:More Statistics タブをクリックすると、信頼区間、PRESS 予測誤差、および、標準化係数オプションが表示されます。詳しくは、Options for Linear Regression: More Statistics をご覧ください。

    4. Other Diagnostics:Other Diagnostics タブをクリックすると、Influence (影響力) と Power (検出力) のオプションが表示されます。詳しくは、Options for Linear Regression: Other Diagnostics をご覧ください。

  4. チェックボックスを選択して各検定オプションを有効または無効にします。SigmaPlot を次回以降起動するときは、ここで選択したオプションの内容が保持されます。詳しくは、単純線形回帰の結果を解釈するをご覧ください。

  5. 検定を続行するには、Run Test をクリックします。

  6. 現在の設定内容を適用して、オプションダイアログを閉じるには、OK をクリックします。

 

4.1 Options for Linear Regression: Assumption Checking

オプションダイアログボックスから Assumption Checking タブを選択すると、NormalityConstant Variance、および、Durbin-Watson オプションが表示されます。これらのオプションは、お持ちのデータが回帰分析にふさわしいか否かを、そのデータについて線形回帰が行う3つの仮説をチェックすることによって検定するものです。線形回帰で仮定するのは:

デフォルトでは全ての Assumption Checking (前提条件のチェック) オプションが選択されています。これらのオプションは、使用するデータが等分散の正規分布に従っており、その残差が互いに独立であることが確実に分かっているときだけ無効にしてください。

Tip:この前提条件の検定では、非正規や等分散性でない母集団のデータ検出においてロバストな処理がなされますが、データ分布が極端な条件では検出できない場合があります。しかし、このような条件の場合は、前提条件の自動検定に頼らずにデータを視覚的に調べることで容易に検出することができます。

 

4.2 Options for Linear Regression: Residuals

オプションダイアログボックスの Residuals タブを選択すると、Predicted Values, Raw, Standardized, Studentized, Studentized Deleted, および Report Flagged Values Only オプションが表示されます。

Note:スチューデント化残差、および、スチューデント化削除残差はいずれも、同じ信頼区間の設定を使って外れ値を判定します。

 

4.3 Options for Linear Regression: More Statistics

Options for Linear Regression ダイアログの More Statistics タブをクリックすると、信頼区間オプションが表示されます。母集団、回帰、または、両方の信頼区間を設定し、それらをワークシートに保存することができます。

 

4.4 Options for Linear Regression: Other Diagnostics

Options for Linear Regression ダイアログボックスの Other Diagnostics タブをクリックすると、Influence オプションが表示されます。

 

4.4.1 影響点の対処法

影響点には次の2つの原因があります:

データの収集や入力に誤りがあった場合は、その値を修正してください。修正する値がわからなければ、そのデータポイントの削除を判断できるかもしれません。モデルに誤りがあるようであれば、回帰の独立変数を変更するか、非線形回帰をお試しください。

 

5. 単純線形回帰を実行する

単純線形回帰 (Simple Linear Regression) を実行するには、検定するデータを選択する必要があります。検定ウィザードの Select Data パネルを使用して、検定したいデータを含むワークシートの列を選択します。

線形回帰を実行するには:

  1. 検定を実行する前にデータを選択したい場合は、データ範囲をマウスポインタでドラッグしておきます。

  2. Analysis タブをクリックします。

  3. SigmaStat グループの Tests ドロップダウンリストから以下を選択します:

    RegressionLinear

    検定ウィザードの Select Data パネルが表示されます。検定を選択する前に列を選択していれば、Selected Columns リストにその列が表示されます。列を選択していなければ、データ選択の指示がダイアログボックスに表示されます。

  4. Selected Columns リストに別のワークシート列を割り当てたい場合には、ワークシートで直接その列を選択するか、Data for Dependent または Data for Independent ドロップダウンリストからその列を選択します。

    Selected Columns リストの一行目に割り当てられるのは最初に選択した列で、リストの independent 行に2列目が割り当てられます。各行には、選択した列の番号またはタイトルが表示されます。dependentindependent に選択できるデータはそれぞれ1列のみです。

  5. 選択した内容を変更するには、リストの割り当てを選択したあと、ワークシートから列を選択しなおします。Selected Columns リストの内容をダブルクリックすることによって、列の割り当てを消去することもできます。

  6. Finish をクリックすると、回帰が実行されます。正規性と等分散性、残差の独立性を検定するよう指定している場合、SigmaPlot は、正規性 (Shapiro-Wilk または Kolmogorov-Smirnov)、等分散性、残差の独立性を検定します。もしデータに関するこれらの検定のいずれかが棄却されると、SigmaPlot によりその旨が報告されます。検定が完了すると、Simple Linear Regression レポートが表示されます。予測値 (Predicted) と残差 (Residual) をワークシートに配置するよう選択している場合は、指定した列にそれらが配置され、それぞれラベルが付けられます。

 

6. 単純線形回帰の結果を解釈する

線形回帰のレポートには、方程式と算出された係数、R, R2、および、調整済み R2、従属変数の推定量に関する各種統計値のテーブル、および、回帰方程式と個々の係数の P 値が表示されます。

レポートに表示されるその他の結果は、Options for Linear Regression ダイアログボックスで有効または無効にすることができます。

 

結果の説明

数値による結果に加えて、拡張された結果の説明が表示されることがあります。この説明テキストは、Options ダイアログボックスで有効または無効にすることができます。表示される小数点以下の桁数についても Options ダイアログボックスで指定できます。

 

6.1 回帰方程式

切片 (定数) と傾きの係数の値を持つ直線の方程式です。

この方程式は、 y=b0+b1x の形式になります。ここで、 y は従属変数、x は独立変数、b0 は定数または切片 (x = 0 のときの従属変数の値、回帰直線が y 軸と交わる点)、そして、b1 は傾き (x の1単位あたりの増加に対する y 値の増分) です。

観測数 N、および、回帰から除外された欠損値を含む観測数 (もしある場合) も表示されます。

 

6.2 重相関係数 R、決定係数 R Squared、自由度調整済み決定係数 Adj R Squared

 

6.3 推定量の標準誤差

 

6.4 統計量のサマリーテーブル

 

6.5 Beta (標準化係数 β)

独立変数の係数を無次元の値に標準化したものです。

ここで、b1 = 回帰係数、sx = 独立変数 x の標準偏差、そして、 sy = 従属変数 y の標準偏差です。

この結果は、Options for Linear Regression ダイアログボックスで Standardized Coefficients オプションを無効にしない限り表示されます。

 

6.6 分散分析表

ANOVA テーブル (分散分析表) には、回帰の ANOVA 統計量と、それに対応する F 値が表示されます。

Tip:単純線形回帰では、ANOVA の P 値は、傾き係数の t に関連する P 値と同じです。また、t が傾きに関する t 値であるとき F=t2 が成り立ちます。

 

6.7 PRESS 統計量

 

6.8 Durbin-Watson 統計量

 

6.9 正規性検定

正規性検定 (Normality Test) の結果には、元になる母集団が回帰直線の周囲に正規分布しているという仮説の検定にそのデータが合格 (Passed) したか否か (failed)、および、この検定で算出される P 値が表示されます。いずれの回帰でも、元になる母集団が回帰直線の周囲に正規分布すると仮定します。正規性検定が棄却された場合は、レポートに警告が表示されます。この結果は、Options for Linear Regression ダイアログボックスで正規性検定を無効にしない限り表示されます。

正規性検定が棄却された場合は、影響力のある外れ値が存在するか、回帰モデルに誤りがある可能性があります。

 

6.10 等分散検定

等分散検定 (Constant Variance Test) の結果には、元になる母集団の従属変数のばらつきが独立変数の値にかかわらず一定であるという仮説の検定にそのデータが合格 (Passed) したか否か (failed)、およびこの検定で算出される P 値が表示されます。等分散検定が棄却された場合は、レポートに警告が表示されます。

等分散検定が棄却された場合、別のモデル (例えば、データの形状により近いモデル) の使用を検討するか、または、独立変数を変換してばらつきを安定化することでより精度の高い回帰方程式のパラメータ推定値を得ることを検討してください。

 

6.11 検出力

この結果は、オプションダイアログボックスでこのオプションを選択している場合に表示されます。回帰モデルの検出力 (Power)、すなわち感度は、推定する母集団に関連性がある場合、それらの関係をモデルが正しくあらわす確率です。

回帰モデルの検出力は、測定データの数、誤って差があるとレポートする危険率 (アルファ)、および回帰に関連する相関係数 r に影響を受けます。

 

6.12 回帰診断

回帰診断の結果には Options for Regression ダイアログボックスで選択した予測値、残差、および、その他の診断結果のみが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付ける残差の値は、Options for Linear Regression ダイアログボックスで設定します。

Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされます。その観測データのその他の結果は全て表示されます。(※ v14 では Report flagged values only)

 

6.13 影響診断

影響診断の結果にはオプションダイアログボックスの Other Diagnostics タブで選択した結果の値だけが表示されます。外れ値として評価された全ての結果には、< 記号でフラッグが付けられます。外れ値としてフラッグを付ける残差の値は、Options for Linear Regression ダイアログボックスの Other Diagnostics タブで設定します。

Report Cases with Outliers Only (※) を選択していれば、単一または複数の残差に外れ値としてフラッグの付いた観測データだけがレポートされますが、その観測データのその他の結果も表示されます。(※ v14 では Report flagged values only)

 

6.14 信頼区間

これらの結果は、Regression Options ダイアログボックスで選択している場合に表示されます。信頼区間にゼロが含まれていなければ、指定した信頼水準でその係数はゼロではないと結論付けることができます。これは、 P < α (alpha) としても表現できます。ここで、α は、係数はゼロではないと誤って結論付けてもよしとする確率で、信頼区間は 100(1 - α) となります。

信頼水準は、1 から 99 までの任意の値を指定できます。提示される信頼水準はいずれの区間についても 95% です。

 

7. 単純線形回帰のレポートグラフ

単純線形回帰の結果を使用して、以下に示す最大5つのグラフを作成することができます:

 

7.1 線形回帰のレポートグラフを作成する

Linear Regression report データのグラフを作成するには:

  1. 出力されたレポートを表示した状態で、Report タブをクリックします。

  2. Result Graphs グループにある Create Result Graph をクリックします。

    Create Result Graph ダイアログボックスに Linear Regression の結果で使用できるグラフのタイプが表示されます。

  3. Graph Type リストから作成したいグラフのタイプを選択して、OK をクリックします。

    指定したグラフがグラフウィンドウに表示されます。詳しくは、レポートグラフをご覧ください。