22.1 主成分分析について

主成分分析 (PCA) では、お持ちのデータの構成に選んだ幾つかの変数を主成分 (principal component) と呼ばれる新たな変数セットに変換します。第1成分はデータの分散ができるだけ最大となるように定めます。以降の成分は、残りの変動が可能な限り最大となり、かつ、前の成分の全てと直交するようにそれぞれ定義します。主成分は、お持ちのデータセットにある変数と同じ数だけ存在しますが、お持ちのデータのばらつきの大部分が低次のサブセットに含まれるようであれば、少数の主成分のみから研究モデルを再編成し、単純化できる可能性があります。

インプットデータは、各観測データに m 個の相関変数がある多変量の標本で、観測数 n の集合で構成されます。多変量の各観測データは、それぞれ共通の母平均と共分散をもつ多変量正規分布に従うより大きな母集団から抽出されたものと仮定されます。各変数はワークシートの列として、各観測データはワークシートの行としてあらわされます。

SigmaPlot は分析を行う準備として、主成分を標本の共分散行列の分析によって求めたか、標本の相関行列によって求めたかに応じて生データを前処理します。共分散行列を選択した場合は、SigmaPlot により各変数の列データがその平均値で中心化されます。相関行列を選択した場合は、各変数の列データは標本の単位あたりの分散になるよう基準化されます。生データのこれらの調整を便宜的に研究のオリジナルの変数として呼び出すことができます。

主成分分析の主たる目標は、以下の条件を満たす主成分 (PC) と呼ばれる互いに無相関の変数をオリジナルの変数集合から取り出すことです。

Note: 多変量データセットの全分散は、そこに含まれる変数の標本分散の和として定義されます。

これらの条件から、オリジナル変数の分散の原因を主成分を使って説明することができます。また、これらの条件は、多くの実例で重要となる主成分のオリジナル変数に関する解釈に役立てることもできます。例えば、オリジナル変数の全てまたは幾つかの集合の効果がある主成分であらわされるかも知れません。幾つかの主成分によって、オリジナルの変数を異なる複数のカテゴリに分割できるという解釈が導き出されるかも知れません。

SigmaPlot は、共分散 (または相関) 行列のスペクトル分解を求めることで上記に掲げた条件を満たす主成分を構成します。スペクトル分解の固有値は、主成分の分散と同じです。スペクトル分解の固有ベクトルにより、第一条件に掲げた線形結合の係数が得られます (上記参照)。これらを元に主成分を解釈します。

Note: 正方行列 S の固有値 λ は、ゼロでないベクトル x に関する方程式 Sx = λ x を満足させる任意の数です。このベクトル xS の固有ベクトルと言います。

 

主成分分析 (PCA) で最も重要な用途は、おそらくデータを縮約することでしょう。たとえば、幾つかの基準を適用して分散が最大となるような少数の主成分を選び出します。SigmaPlot では、幾つかの選択基準を利用できます。選択する成分をモデル内主成分 (in-model PC) と呼びます。オリジナルの各変数をモデル内主成分の線形結合による最良あてはめで近似するに際して必要とされる条件のひとつは、観測データ1つあたりの残差を許容できる小ささにすることです。

Note: 主成分の構築した経緯から、この線形結合の最良あてはめの係数は、条件1で言及した線形結合のモデル内主成分の係数と同じになります。

もうひとつの要件は、モデル内主成分によって全体の分散の大部分を説明することです。主成分が少なすぎると、それだけ残差が大きくなるのでデータを適切にあらわすことができません。モデル内主成分が多すぎると、目標とする単純化が犠牲となり、主成分の解釈がそれだけ困難になります。