27.1.10 ダミー変数 (指標変数) を作成する

ダミー変数 (Dummy variable) は、指標変数 (indicator variable) とも言いますが、複数のデータ集合に共通の定数 (切片) 値があるか否かを判断するため、ダミー変数を使って指定した条件の違いによってその定数に影響があるかを調べます。これは、単純な線形回帰の全データが同一直線上にあるか、または、独立変数に条件付き従属関係があるかを決定するのに利用できます。

ダミー変数は、一般にインデックスデータの列を計算します。これらのデータは、生データにインデックス値を割り当てるのと同じように、インデックス変数データに割り当てるものですが、ダミー変数のコーディングに使用するインデックス変数の値として決定した特定の数値と常に一致します。ダミー変数を定義するには2つの方法があります:参照コーディング (reference coding) と効果コーディング (effects coding) です。

インデックス列の内容が数値である場合、ダミー変数トランスフォームはコード値として整数 (nearest whole number) を使用します。そして、対応するダミー変数を整数に四捨五入してデータを評価します。

インデックス変数の値 (想定される従属性の条件) が k 個ある場合、ダミー変数トランスフォームは、k -1 のダミー変数を生成します。インデックス変数の内容が2種類のインデックス値である場合、片方のダミー変数列が生成され、もう一方は、参照または効果インデックスの値に使用されます。インデックス変数の内容が3種類のインデックス値である場合は、ダミー変数の列が2つ作成され、3つめの列は参照または効果の値に使用されます。ダミー変数列を作成するには、インデックス列の内容は少なくとも2種類のインデックス値が必要です。ダミー変数を使用して異なる勾配を検出する方法に関する記述は、統計解説の参考書をご覧ください。

  1. 参照コーディング
  2. 効果コーディング
  3. ダミー変数を使用した回帰分析の実行

1. 参照コーディング

参照コーディング (Reference coding) では、使用したインデックス条件とインデックス変数が一致する場合は、すべてのダミー変数の値がゼロに設定され、それ以外のインデックス変数の値が 1 に設定されます。参照条件には常に 0 が割り当てられます。

Note: 定数を、選択した参照条件に従う従属変数の平均となるようにし、従属変数の平均である参照条件からの定数値の変化を、ダミー変数 (複数可) を計算した係数に反映させたい場合は、参照コーディングを使います。

 

参照コーディングのダミー変数を作成するには:

  1. 必要があれば、データのインデックス列を作成します。このデータには任意の数値または文字列を使用できます。異なる条件に属する従属変数の値は、それぞれ異なるラベルでインデックス化します。詳しくは、データをインデックス化するをご覧ください。2因子と反復測定データにはインデックス列を追加する必要があります。

  2. Analysis タブの Transform グループから:

    StatisticalDummy VariablesReference Coding

    を選択します。

    Reference Transform - Select Data ダイアログボックスが表示され、入力列と出力列を選択するよう指示されます。

    このトランスフォームを実行する前に列を選択していれば、ワークシートで選択した順に、選択した列が入力列と出力列に割り当てられます。

  3. ダミー変数を作成したいインデックスデータの列を、マウスを使ってワークシートをクリックするか、Data for Input ドロップダウンリストを使って入力列として選択します。選択した列の番号またはタイトルが Selected Columns リストの入力行としてハイライトで表示されます。出力列を選択するよう指示されます。

  4. ダミー変数の出力先となる列をマウスを使ってワークシートをクリックするか、Data for Output ドロップダウンリストを使って出力列として選択します。選択した列の番号またはタイトルがハイライトで出力行に表示されます。出力先の列の右側にはダミー変数列のすべてに対応するだけの充分な空き列が必要です。作成されるダミー変数の列は、インデックス値 (異なるグループ) の数から1を引いた数になります。

  5. 選択内容を変更するには、Selected Columns リストで割り当てられた列を選択して、ワークシートから変更したいワークシート列をマウスで選択するか、ドロップダウンリストから選択します。割り当てられた列をダブルクリックすることでその内容を消すこともできます。

  6. Finish ボタンをクリックしてトランスフォームを実行します。Select Reference Index ダイアログボックスが表示されます。

  7. 参照条件に使用する参照インデックスの値をリストから選択します。この値ではダミー変数は作成されません (これは、定数値を決定する条件です。この条件に一致するダミー変数の値は常に 0 になります)。それ以外のインデックス値は、対応するダミー変数の値で評価されます。

  8. OK ボタンをクリックします。参照コードになるダミー変数がインデックス値の数から1を引いた列だけ配置されます。列の評価に使用する条件と合致するインデックス列の値には 0 が割り当てられます。その他の値には 1 が割り当てられます。参照条件に選択したインデックス値を除くインデックス値にはそれぞれ独立したダミー変数の列が作成されます。
Note: データを格納する出力列を指定する場合、列の内容を消去して、内容を上書きするか否かを尋ねるダイアログボックスが表示されます。Overwrite をクリックすると、既存の列の内容がトランスフォームの結果に置き換えられます。Insert をクリックすると、既存のセルの内容の上にトランスフォーム結果が配置されます。入力列のデータが計算に掛けられ、指定した出力列に配置されます。

 

2. 効果コーディング

効果コーディング (Effects Coding) では、ダミー変数が -1、0, 1 でコーディングされます。参照条件は常に -1 でコーディングされます。その他のダミー変数は、使用するインデックス条件に一致するインデックス変数は 0 に、それ以外のインデックス変数の値は 1 に設定されます。

Note: 定数項を従属変数の値を使って全てのインデックス条件で計算し、ダミー変数の係数をこの全体平均の変化の大きさで定量化したい場合は効果コーディングを使用します。

 

効果コーディングのダミー変数を作成するには:

  1. 必要があれば、データのインデックス列を作成します。このデータには任意の数値または文字列を使用できます。異なる条件に属する各従属変数の値は、異なるラベルでインデックス化します。詳しくは、データをインデックス化するをご覧ください。2因子と反復測定データにはインデックス列を追加する必要があります。

  2. Analysis タブの Transform グループから:

    StatisticalDummy VariablesEffects Coding

    を選択します。

    Effects Transform - Select Data ダイアログボックスが表示され、入力列と出力列を選択するよう指示されます。

  3. このトランスフォームを実行する前に列を選択していれば、ワークシートで選択した順に、選択した列が入力列と出力列に割り当てられます。

  4. ダミー変数を作成したいインデックスデータの列を、マウスを使ってワークシートをクリックするか、Data for Input ドロップダウンリストを使って入力列として選択します。選択した列の番号またはタイトルが Selected Columns リストの入力行としてハイライトで表示されます。出力列を選択するよう指示されます。

  5. 選択内容を変更するには、Selected Columns リストで割り当てられた列を選択して、ワークシートから変更したいワークシート列をマウスで選択するか、ドロップダウンリストから選択します。割り当てられた列をダブルクリックすることでその内容を消すこともできます。

  6. ダミー変数の出力先となる列をマウスを使ってワークシートをクリックするか、Data for Output ドロップダウンリストを使って出力列として選択します。選択した列の番号またはタイトルがハイライトで出力行に表示されます。出力先の列の右側にはダミー変数列のすべてに対応するだけの充分な空き列が必要です。作成されるダミー変数の列は、インデックス値 (異なるグループ) の数から1を引いた数になります。

  7. Finish ボタンをクリックしてトランスフォームを実行します。Select Reference Index ダイアログボックスが表示されます。

  8. 参照に使用する参照インデックス値をリストから選択します。ダミー変数はこの値では作成されません。これは、定数値を決定する条件で、この条件に対応するダミー変数値は常に -1 となります。それ以外のインデックス値は、対応するインデックス変数として 1 に設定されます。

  9. OK ボタンをクリックします。列の評価に使用するインデックス値に一致するインデックス列の値には 0 が割り当てられます。参照条件に一致するインデックス値には -1 が割り当てられます。その他の値には 1 が設定されます。参照条件のインデックス値を除くインデックス値にはそれぞれ1つのダミー変数列が生成されます。
Note: データを格納する出力列を指定する場合、列の内容を消去して、内容を上書きするか否かを尋ねるダイアログボックスが表示されます。Overwrite をクリックすると、既存の列の内容がトランスフォームの結果に置き換えられます。Insert をクリックすると、既存のセルの内容の上にトランスフォーム結果が配置されます。入力列のデータが計算に掛けられ、指定した出力列に配置されます。

2因子または反復測定問題でダミー変数を作成する場合、残り全てのインデックス列についてダミー変数を作成します。

 

27.1.10.3 ダミー変数を使用した回帰分析を実行する

回帰モデルの定数に対する条件の影響を評価する方程式は、

y = b0 + b1x + b2d1 + ... + bk−1dk−1

ここで y は従属変数、x は独立変数、k は定数に影響を与える条件の数、d1, d2, dk-1 はダミー変数、b0, b1, b2, bk-1 係数となります。

 

ダミー変数を利用した多重線形回帰を実行するには:

  1. Analysis タブの Statistics グループから:

    TestsRegressionMultiple Linear Regression

    を選択します。

    Multiple Linear Regression - Select Data ダイアログボックスが表示されます。

  2. 従属変数の列を選択して、オリジナルの独立変数と、全てのダミー変数を独立変数として選択します。

  3. Finish ボタンをクリックして選択した列に対して回帰分析を実行します。

  4. オリジナルの Simple Linear Regression との結果を比較します。予測が有意に優れていれば、条件別に Simple Linear Regression を実行します。

    ダミー変数は、分散分析問題を回帰問題へ変換するのに使用することもできます。これを行うには統計解析の参考書を参照してください。
Note: データを格納する出力列を指定する場合、列の内容を消去して、内容を上書きするか否かを尋ねるダイアログボックスが表示されます。Overwrite をクリックすると、既存の列の内容がトランスフォームの結果に置き換えられます。Insert をクリックすると、既存のセルの内容の上にトランスフォーム結果が配置されます。入力列のデータが計算に掛けられ、指定した出力列に配置されます。