HOME > テクニカルサポート > SYSTAT > SYSTAT 11 >
ヒューリンクステクニカルサポート
SYSTAT に関する皆様からのご質問のうち、よくある質問を掲載しました。
SYSTAT 11 テクニカルサポート
SYSTAT 製品ページ

TOP > 分類ツリー

分類ツリー

この例では、「判別分析」で扱われた、Fisher-Anderson のアイリス (植物) に関するデータセットの分類ツリーの分析を示します。Gini の損失関数を使用して、視覚的なツリー、つまりモビールをドットヒストグラム、つまりディット プロットで示します。入力は次のようになります。

USE IRIS
LAB SPECIES/1=’SETOSA’,2=’VERSICOLOR’,3=’VIRGINICA’
TREES
MODEL SPECIES=SEPALLEN,SEPALWID,PETALLEN,PETALWID
ESTIMATE/LOSS=GINI,DENSITY=DIT

出力は次のようになります。

SYSTAT Rectangular file contains variables:
SPECIES      SEPALLEN     SEPALWID     PETALLEN     PETALWID

Categorical values encountered during processing are:
SPECIES (3 levels)
’SETOSA’,’VERSICOLOR’, ’VIRGINICA’
Split     Variable         PRE  Improvement
1     PETALLEN       0.500        0.500
2     PETALWID       0.890        0.390
Fitting Method: Gini Index
Predicted variable: SPECIES
Minimum split index value:                  0.050
Minimum improvement in PRE:                 0.050
Maximum number of nodes allowed:            22
Minimum count allowed in each node:         5
The final tree contains 3 terminal nodes
Proportional reduction in error:        0.890
Node from Count         Mode    Impurity    Split Var   Cut Value   Fit
1    0   150
2    1    50      ’SETOSA’      0.000
3    1   100
4    3    54  ’VERSICOLOR’      0.084
5    3    46   ’VIRGINICA’      0.021

ツリー全体の PRE の値は 0.89 (回帰モデルの R2 (決定係数) に類似) で、この値は悪くありません。ただし喜ぶ前に、Fisher は実データによる判別モデルを説明するためにこのアイリスのデータセットを選択したにもかかわらず、その効果はわずかしか現れていないことに注意する必要があります。花弁の幅に対する花弁の長さの散布図を調べることで、このデータを詳細に分類することができます。

SYSTAT 独特のツリーの表示方式は、モビールと呼ばれます (Wilkinson の 1995 年の論文)。ディット プロットは、ツリーの仕組みを説明するのに最適です。各ケースが、個々のノードの箱にある小石だと考えます。モビールは、すべての箱を単純に釣り合わせます。この理由は、群からわずかなケースだけを取り除く分岐が簡単に分かるからです。これらのノードは、明らかに外に出ています。たとえば、最初の分岐で、何が母集団を左側のケース数と右側のケース数 (花弁の長さが 3 未満) に二分割しているかは明白です。

この表示には、他のツリーの表示とは異なる、2 番目に重要な特徴があります。モビールは、分岐の方向ではなく、終端のノード (カラー表示では赤) の極性を調節します。このデザインでは、次の 3 つの効果があります。まず、下位の群の分布を共通の尺度で評価することができます。次に、各分岐変数の分岐方向を知ることができます。最後に、終端ノードの分布を左から右に調べることにより、標本全体が独立変数によりどのように分割されているかを知ることができます。

最初の効果は、データを持つ各箱は、共通尺度での下位の群の値を示す、小型の密度表示 (同一の制限と同一の方向を持つ) であるということです。分布を調べるために、下位の群のデータを詳しく調べる必要はありません。ツリーから明白です。箱ヒゲ図や他の密度表示を使用する場合は、

DENSITY = BOX

や他の密度を ESTIMATE のオプションとして使用します。分類ツリーでは、ディット プロットが最適です。ただし、カテゴリ値ではスパイクが発生するので、カテゴリデータでは棒グラフのように表示されます。連続データでは、ディット プロットはヒストグラムのようになります。上記の表示はこの目的には適していますが、標本数が多いと作図に時間がかかることがあるので、テキストがデフォルトのグラフ表示になっています。

従属変数 (独立変数ではなく) の極性による、分岐の順位付けの 2 番目の効果は、分岐が表示されている向き (左右) を調べることにより、分岐方向が即座に分かるということです。PETALLEN < 3.000 は、最初の分岐の左側になっています。これは、花弁の長さと種類の間の関係 (コード 1..3) が正の値をとる (関係がある) ということです。2 番目の分岐群内の花弁の幅についても、分岐バナーが左にあるので、同じことが言えます。分岐の右側にバナーが表示されている場合、回帰ツリーの例に示すように、分岐する群内の従属変数と分岐変数との間に、負の関係があることを示します。

分岐の順位付けをする 3 番目の効果は、終端のノードを左から右に調べることにより、分岐結果の順番を知ることができるということです。この例では、3 つの種が左から右に、コード化された順序で並んでいます。CATEGORY と ORDER のコマンドを使用して、カテゴリ変数のこの順序を変更することができます。ここで行ったように、ラベルを追加することで、出力がより解釈しやすくなります。

 

前のページにもどる