23.1 回帰について

Regression (回帰) プロシージャーでは、単一または複数の独立変数の値を使って従属変数の値を予測します。独立変数は既知の変数で、予測変数とも呼ばれるものです。独立変数の値を変化させると、それに対応する従属変数、すなわち、応答変数の値も変化します。

実行できる回帰手法は、以下の7種類です:

回帰では、直交座標系に独立変数と従属変数のグラフを作成すると、直線、平面、または、曲線を生成できる関係があることが前提とされます。実際のデータを最もよくあらわす方程式を回帰によって求めます。

例えば、単純線形回帰では、直線方程式 y=b0+b1x を使用します。ここで、y は従属変数、x は独立変数、b0 は切片、または、定数項 (x=0 のときの従属変数の値、回帰直線が Y 軸と交わる点)、そして、b1 は傾き、すなわち、回帰係数 (X が単位あたりに増加したときの Y の値の増分) です。X の値が 1 だけ増加すると、それに対応する Y の値も b1 の符号に応じて b1 だけ増加または減少します。

多重線形回帰は、単純線形回帰とよく似ていますが、複数の独立変数を使って、多次元平面の一般方程式 y=b0+b1x1+b2x2+b3x3+...+ bkxk を当てはめる点が異なります。ここで、y は従属変数、x1, x2, x3, ...xkk 個の独立変数、そして、b1, b2, b3, ...bkk 個の回帰係数です。x1 の値が 1 だけ増加すると、それに対応する y の値も bk の符号に応じて bk だけ増加または減少します。

回帰は、残差 (従属変数の予測値と観測値の間の差) が等分散の正規分布に従うことを前提条件とするパラメトリックな統計手法です。

回帰係数が残差の平方和を最小化することで算出されることから、この手法のことを最小二乗回帰と呼ぶことも良くあります。

  1. 相関
  2. 回帰と相関のデータフォーマット

 

1. 相関

Correlation (相関) プロシージャーでは、予測の確実さをはかるものさしとして利用できる2つの変数間の関連性の強さを測定します。回帰とは異なり、ある変数を独立変数として、ある変数を従属変数として定義する必要はありません。

相関係数 r は、-1 から +1 の間で変動する数字です。相関が -1 である場合は、2変数の間に一方が増加すると他方は減少するという完全な不の相関関係があることをあらわします。相関が +1 である場合は、2変数の間に、どちらも常に一緒に増加するという完全な正の相関関係があることをあらわします。相関が 0 である場合は、2変数の間に何の相関関係もないことをあらわします。

相関係数には次の2つのタイプがあります:

 

2. 回帰と相関のデータフォーマット

回帰プロシージャーと相関プロシージャーのデータは、いずれも、1列の従属変数 (通常は "y" データ) と、独立変数毎に1列を占める単一または複数の列の独立変数 (通常は "x" データ) で構成されます。

回帰では、データ列に欠損データポイントを含む行は無視されます。空白セル、ダブルダッシュ ("--")、および、テキスト項目は欠損値と見なされます。全ての列の長さは欠損値も含めて同じである必要があります。長さが異なればエラーメッセージが表示されます。

列を選択する代わりにデータのブロック (矩形範囲) に対して検定をおこなう場合、その列は、隣り合っている必要があります。また、その場合は、左端の列が従属変数であると見なされます。

列全体の代わりにデータのブロックを選択する方法につきましては、各検定の Selecting Data Columns セクションをご覧ください。