HOME > ソフトウェアパッケージ > 統計解析/グラフ作成 > SYSTAT (シスタット) > 統計解析機能
新規購入お見積
アップグレードお見積
SYSTAT (シスタット)
統計解析機能

SYSTAT 主な統計解析機能

  1. ブートストラップとサンプリング (Bootstrapping and Sampling)
  2. 分類ツリーと回帰ツリー (Classification and Regression Trees)
  3. クラスター分析 (Cluster Analysis)
  4. コンジョイント分析 (Conjoint Analysis)
  5. 相関、類似度、および距離の尺度 (Correlations, Similarities, and Distance Measures)
  6. コレスポンデンス分析 (Correspondence Analysis)
  7. クロス集計表(1 元表、2 元表、多元表) (Crosstabulation (One-Way, Two-Way, and Multiway))
  8. 記述統計 (Descriptive Statistics)
  9. 実験計画法 (Design of Experiments)
  10. 判別分析 (Discriminant Analysis)
  11. 因子分析 (Factor Analysis)
  12. 分布のあてはめ (Fitting Distributions)
  13. 仮説検定 (Hypothesis Testing)
  14. 線形回帰 (Linear Models I: Linear Regression)
  15. 分散分析 (Linear Models II: Analysis of Variance)
  16. 一般線形モデル (Linear Models III:General Linear Models)
  17. ロジスティック回帰 (Logistic Regression)
  18. 対数線形モデル (Loglinear Models)
  19. 欠損値分析 (Missing Value Analysis)
  20. 混合回帰 (Mixed Regression)
  21. モンテカルロ (Monte Carlo)
  22. 多次元尺度構成法 (Multidimensional Scaling)
  23. 多変量分散分析 (Multivariate Analysis of Variance: MANOVA)
  24. 非線形モデル (Nonlinear Models)
  25. ノンパラメトリック検定 (Nonparametric Tests)
  26. 座標を持つ半順序化された尺度分析法(スケイログラム分析) (Partially Ordered Scalogram Analysis with Coordinates)
  27. パス解析(RAMONA) (Path Analysis (RAMONA))
  28. 知覚的マッピング (Perceptual Mapping)
  29. 検出力分析 (Power Analysis)
  30. 確率の計算 (Probability Calculator)
  31. プロビット分析 (Probit Analysis)
  32. 品質分析 (Quality Analysis)
  33. ロバスト回帰 (Robust Regression)
  34. セットの相関と正準相関 (Set and Canonical Correlations)
  35. Signal Detection Analysis (信号検出分析)
  36. スムース (Smoothing)
  37. 空間統計(Spatial Statistics)
  38. 生存分析 (Survival Analysis)
  39. テスト項目分析 (Test Item Analysis)
  40. 時系列 (Time Series)
  41. 2 段階最小二乗法 (Two-Stage Least Squares)

ブートストラップとサンプリング (Bootstrapping and Sampling)

リサンプリング (ブートストラップを含む) は統計モジュールではなく、多くのモジュールで、該当する場合に使用できる手順の 1 つです。 SYSTAT では、この機能は規定のモジュールのダイアログボックスのタブから使用することが可能で、ブートストラップ、サブサンプリング、ジャックナイフの 3 種類のリサンプリング手法が用意されています。生成された標本のスクラッチファイルを生成せずに、計算が処理されます。ブートストラップ、ジャックナイフ、その他の標本は、簡単に即座に計算されます。


分類ツリーと回帰ツリー (Classification and Regression Trees)

TREES モジュールは、分類と回帰のツリーを計算します。分類ツリーには、従属変数 (予測変数) がカテゴリ変数であるモデルが含まれます。回帰ツリーには、従属変数 (予測変数) が連続変数であるモデルが含まれます。これらのツリーのタイプ内で、TREES モジュールは、CATEGORY 文が予測変数の一部、またはすべてを含むかどうかの違いにより、従属の予測変数、または連続の予測変数を使用することができます。

どのモデルでも、さまざまな損失関数を使用できます。各損失関数は、適合度検定の統計量、つまり誤差の減少比率 (PRE) の項で表されます。回帰ツリーでは、この統計量は重回帰の決定係数に等しくなります。他の損失関数には、Gini の指数、twoing (Breiman などの 1984 年の論文)、および φ 係数などがあります。

TREES は、mobiles (モビール) (Wilkinson の 1995 年の論文) と呼ばれるグラフィカルなツリーを作成します。各枝の先には密度グラフ (箱ヒゲ図、点グラフ、ヒストグラムなど) があり、その位置における観測値の分布を示します。枝は、各端の観測数について、枝が水平になるように、各ノードの枝は釣り合っています (Calder のモビールと同様)。物理的な類似性は点グラフについてもっとも明らかであり、ドットの重なり (各観測値について) は、天秤上の小石のように釣り合っています。

また、TREES は、SYSTAT BASIC プログラムを生成して、新規の観測値のコーディングと、従属変数の予測ができます。このプログラムはファイルに保存することができ、コマンドウィンドウから、またはプログラムファイルとして発行することにより、実行することができます。リサンプリング プロシージャをこの機能で使用することができます。


クラスター分析 (Cluster Analysis)

SYSTAT には、矩形や対称のマトリクスデータに使用できるさまざまなクラスター分析法が用意されています。クラスター分析は、データの自然な組分けを検出するための多変量解析です。クラスター分析は、ある点では判別分析に似ています。すなわち、下位の群の個数も要素も不明でありながら研究者がデータを下位の群に分類する方法を探すという点です。

クラスタリングには、階層的クラスタリング、K-means、および加法的ツリーの 3 つの手法があります。階層的クラスタリングの手順は、階層的な連鎖手法で構成されています。K-means クラスタリングの手順は、クラスター間の分散を最大にしてクラスター内の分散を最小にすることにより、選択した個数の群にデータセットを分割します。加法的ツリーのクラスタリング手順は、Sattath-Tversky の加法的ツリーのクラスタリングを生成します。


階層的クラスター分析

K-Means クラスター分析

階層的クラスタリングは、ケース、変数、またはケースと変数の両方を同時にクラスタリングします。K-means はケースだけをクラスタリングします。加法的ツリーは、類似度、または非類似度のマトリクスをクラスタリングします。階層的クラスタリングと K-means クラスタリングでは、定量的、および度数のデータのメトリックを含む、8 種類のメトリックが使用できます。階層的クラスタリングには、クラスターのリンク方式が6 種類あり、結果をツリー (樹形図) または極デンドログラムとして表示します。ケースと変数のクラスタリングにMATRIX オプションが使用された場合、SYSTAT は灰色の階調、またはカラースペクトルを使用して、値を示します。

リサンプリング プロシージャは、階層的クラスタリングでしか使用できません。


コンジョイント分析 (Conjoint Analysis)

コンジョイント分析は、観察されたデータにメトリックとノンメトリックのコンジョイント測定モデルを当てはめます。これは、単純な最適化の手順を使用した一般的な加法モデルとして設計されています。したがって、コンジョイント分析は、他の特化したコンジョイントプログラムでは通常使用できない測定モデルを処理することができます。

リサンプリング プロシージャをこの機能で使用することができます。


相関、類似度、および距離の尺度 (Correlations, Similarities, and Distance Measures)

相関は、相関と、類似度、距離を計算します。それらのマトリクスを出力し、さらに要求に応じて、多次元尺度法、クラスタ、因子分析など、さらなる分析用に SYSTAT ファイルに保存します。

連続データでは、相関は Pearson の相関、共分散、平均値からの偏差の平方和と積和 (SSCP) を計算します。通常の確率に加えて、Pearson の相関では Bonferroni と Dunn-Sidak の調整が使用できます。距離が必要な場合は、ユークリッド距離または市街地距離 (city-block distances) が使用できます。連続データの類似度の尺度としては、Bray-Curtis の係数と QSK 定量対称係数 (Kulczynski 尺度)があります。

順位データについては、相関では Goodman-Kruskal の γ、Guttman の μ2、Spearman の ρ、Kendall の τ が得られます。

2 値データでは、相関ではポジティブマッチングの 2 分係数 S2、Jaccard の 2 分係数 S3、単純マッチングの 2 分係数 S4、Anderberg の 2 分係数 S5、Tanimoto の 2 分係数 S6 が計算されます。元になる分布が正規分布である場合は、四分相関が使用できます。

データが欠けている場合、すべての尺度についてリストごと、対ごとの削除方式が使用できます。EM アルゴリズムは、偏差行列の相関、共分散、および内項 (外項) の積の最尤推定法のオプションです。外れ値の重み付けが小さいロバストな ML 推定値について、ユーザーは t 分布の自由度、または正規分布の混交を指定することができます。相関には、欠損値のパターンのグラフ表示があります。Little の MCAR 検定がグラフと共に出力されます。また、EM アルゴリズムは Mahalanobis 距離が非常に大きいケースを特定します。Hadi のロバストな外れ値検出と推定の手順は、相関、共分散、および SSCP のオプションです。手順により外れ値として特定されたケースは、推定値の算出には使用されません。

リサンプリング プロシージャをこの機能で使用することができます。


コレスポンデンス分析 (Correspondence Analysis)

コレスポンデンス分析では、カテゴリ変数の関係を視覚的に調べることができます。カテゴリ変数の 2 重クロス表の単純コレスポンデンス分析、および多重クロス表の多重コレスポンデンス分析を計算します。表は行と列の座標に分解され、グラフに表示されます。類似するカテゴリは、グラフ内で近くに現れます。

リサンプリング プロシージャをこの機能で使用することができます。

グラフは、重傷対軽傷の主軸を示しています。この軸は、飲酒運転とシートベルト着用に関連しています。

クロス集計表 (1 元表、2 元表、多元表) (Crosstabulation (One-Way, Two-Way, and Multiway))

変数がカテゴリ変数の場合、度数表 (クロス集計表) に役に立つ情報がまとめらます。レポートとして、指定のカテゴリ、またはクロス分類に当てはまるケースの割合だけが必要な場合があります。ときとして、2 つのカテゴリ変数の独立性の検定、または連関の測度が必要な場合があります。あるいは、対数線形モデルをセルの度数に当てはめることにより、2 つ以上のカテゴリ変数の関係をモデル化したい場合があります。

クロス集計表と対数線形モデルの両方で、カテゴリ変数 (または表の因子) で構成された度数表の作成、分析、および保存ができます。因子の値は、文字と数値のどちらでもかまいません。手順は両方とも、「ケース×変数」の矩形ファイルから読み取ったデータ、またはセル番号を持つ度数 (例:レポートの表) として記録されたデータを使用して、表を作成します。クロス集計表では、行合計、列合計、または総標本数の割合を要求することができます。

クロス集計表には、次の 3 種類の度数表があります。

1元表 単一の表の因子、またはカテゴリ変数のセルの割合についての度数、割合、および信頼区間。
2元表 2つの因子のクロス集計についての度数、割合、検定および関連の測度。
多元表 第 3、第 4 などの表の因子の値のすべての組み合わせにより層別化された一連の 2 元表の度数、および割合。

リサンプリング プロシージャをこの機能で使用することができます。


記述統計 (Descriptive Statistics)

データを記述するには様々な方法がありますが、ある標本について、すべての記述方法が適しているということはありません。平均値と標準偏差は正規分布のデータには有効ですが、分布の非対称性が高い場合や、分布に外れ値、サブグループ、その他の例外が存在する場合は、記述方法として適していません。統計量の中には、平均値や中央値のように、分布の中心を表すものがあります。これらの推定値は、位置の測度 (measures of location) と呼ばれます。また、標準偏差のように、分布のばらつきを表すものがあります。

記述するもの (位置、ばらつきなど) を決める前に、どの種類の変数があるかを検討する必要があります。変数の値は、順序のないカテゴリ、順序付けられたカテゴリ、カウント、測定値のどれでしょうか。

多くの統計的処理において、カウントは測定値として扱われています。これらの値に算術計算を行っても意味がある場合は、このような変数は量的変数と呼ばれます。

平均値や標準偏差は、正規分布に従う量的変数に適しています。ただし、実データがこの正規性の前提を持たないことがあります。計算が正規性の前提への違反の影響を受けない場合、記述統計はロバストと呼ばれます。ロバストな尺度には、中央値、分位点、度数、パーセンテージなどがあります。

記述統計を要求する前に、はじめにグラフ表示を行ない、分布形状が対称であるか、外れ値があるか、標本に部分母集団があるかどうかを調べます。標本に部分集団がある場合、標本は均一ではなく、統計量は各サブグループについて計算する必要があります。

通常、データは変数を表す列とケースを表す行で構成される矩形形式で表示されます。 記述統計は変数を必要とする場合が大半を占めるので、こういった統計のことを列統計と呼びます。 記述統計でケースすなわち行が必要になる場合があります。 たとえば、学生のリスト (行) に対して複数の似たような検定 (列) の得点で構成されているデータセットで平均点と各生徒の変動を調べる場合は行統計を行います。


実験計画法 (Design of Experiments: DOE)

実験計画法(DOE)は、さまざまな分散分析モデルや混合モデルについて計画マトリクスを生成します。実験計画法を実験計画のオンラインライブラリや検索エンジンとして使用して、計画を SYSTAT ファイルに保存することができます。一般線形モデル (または他の SYSTAT の統計プロシージャ) により、関連する実験の実行、従属変数の値の同一ファイルへの追加、および 実験データの分析ができます。

SYSTAT には、実験計画法を生成する手法として、クラシック DOE、DOE ウィザード、および DESIGN コマンドの 3 種類があります。

  • クラシック DOE は、もっとも一般的な完全実施要因計画 (全体)と一部実施要因計画 (部分) を生成する、標準ダイアログインタフェースを表示します。
    • 完全実施要因計画は各因子について 2、3 の水準を持つことができ、因子数は 7 に制限されています。不完備計画には、因子当たり 3 ~ 12 の水準を持つラテン方格計画、因子数 3 ~ 11 と実行数 4 ~ 128 を持ち Box、Hunter、Hunter が記述した 2 水準の選択計画 (1978 年の論文)、タグチの計画 (1987 年の論文) のうち一般的な 13 の計画、4 ~ 100 の実行数を持つ Plackett と Burman の 2 水準の計画 (1946 年の論文) のすべて、Plackett と Burman が記述した水準数 3、5、7 の 6 種類の計画、Box と Behnken がブロック化、非ブロック化の両方のバージョンで記述した (1960 年の論文) 3 水準の実験 10 種類のセットがあります。さらに、Lattice、Centroid、Axial、および Screening の混合計画を生成することができます。因子 (混合する要素) は、コンピュータのメモリ容量で可能な数だけ使用できます。

  • DOE ウィザードは、計画の構造を定義する一連の質問で構成される、別のインタフェースです。ウィザードでは、応答曲面計画や最適計画など、クラシック DOE よりも多くの計画が使用できます。
    • 最適化法には、Fedorov、K-exchange、および 3 つの最適基準を持つ座標交換のアルゴリズムがあります。座標交換アルゴリズムでは、連続変数とカテゴリ変数の両方が使用できます。一部実施要因計画の検索アルゴリズムでは、因子の水準数はいくつでもよく、要求に応じて直交の不完全ブロックを検索します。因子計画、中心複合計画、および最適計画の因子数は、コンピュータのメモリにだけ制限されます。

  • DESIGN コマンドは SYSTAT のコマンド言語を使用して、クラシック DOE のすべての計画を生成します。必要に応じて計画は何度でも複製でき、実行数を乱数にすることができます。

  • 関連情報:SYSTAT の実験計画法

判別分析 (Discriminant Analysis)

判別分析は、クラシカルとロバストの判別分析を提供します。線形と 2 次の 2 つの判別分析を行うことができます。 クラシカルな線形判別分析では、変数は対話式または SYSTAT によって自動的に、前方または後方のステップワイズ法で選択することができます。自動実行の場合、各ステップで、SYSTAT は群の分類にもっとも寄与する変数を入力 (またはもっとも有用でない変数を削除) します。

コマンド言語を使用すると、特定の群間差を強調することができます。対比を使用して変数の選択に役立てることができます。ケースは計算に使用されていない場合でも、分類することができます。

判別分析は、多変量分散分析と重回帰の両方に関係があります。ケースは一元配置多変量分散分析のようにセルにグループ化され、予測変数は重回帰のような数式を構成します。判別分析では、多変量分散分析で使用される検定の Wilks の λ を使用して、群間の多変量の差を検定するだけでなく、次のことも調べることができます。

  • 群を区別するのにもっとも有効な変数はどれか。
  • ある変数の部分集合は他の部分集合と同じように機能しているか。
  • もっとも類似している群、およびもっとも異なる群はどれか。

データセットに外れ値が含まれている可能性がある場合は、線形または 2 次のロバストな判別分析を行うことができます。 ロバストな判別分析を使用することで、ロバストな距離、Mahalanobis 距離、重み付け、予測される群の構成を保存することができます。

リサンプリング プロシージャは、DISCRIM モジュールに使用できますが、RDISCRIM モジュールには使用できません。


因子分析 (Factor Analysis)

因子分析には、主成分分析と共通因子分析「最尤法と反復主軸法 (iterated principal axis)」があります。SYSTAT には、因子負荷の回転、ソート、グラフ化および保存のオプションがあります。主成分分析では、スコアと係数を保存することもできます。直交回転法には、バリマックス、エカマックス、コーティマックスおよびオーソマックスがあります。斜交回転では、直接オブリミン手法も使用できます。因子負荷量の 3D クイック グラフを対話式に回転して、他の回転も調べることができます。実行する分析の性質により、さまざまな推論的統計量 (信頼区間、標準誤差、カイ 2 乗検定など) が得られます。

リサンプリング プロシージャをこの機能で使用することができます。


分布のあてはめ (Fitting Distributions)

分布のあてはめ機能を使用してデータへの分布のあてはめを行うことができます。 SYSTAT には、標準分布のほかに、Gumbel、Gompertz、Weibull、逆ガウス、ジップ、Rayleigh など、単変量離散型分布および連続型分布が豊富に用意されています。 適合度の検定には、カイ 2 乗適合度およびコルモゴロフスミルノフ検定の 2 つのプロシージャを使用します。 正規分布、対数分布、対数正規分布、Shapiro-Wilk 検定も使用できます。

実際の分布と理論上の分布をプロットを使用して視覚的に比較することができます。 離散型分布には推定パラメータや所定のパラメータを使用して理論上の確率の棒グラフを、連続型分布には推定パラメータや所定のパラメータを使用して計算した密度関数をデータのヒストグラムに重ねて表示することができます。

1 つ以上のパラメータが推定される場合は、コルモゴロフ スミルノフの統計量に関連付けられている p 値が大きくなりすぎます。 このような場合には、 p 値の解釈に注意が必要です。


仮説検定 (Hypothesis Testing)

仮説検定機能を使用して、仮説のパラメトリック検定を行い、平均値、分散、出現率、相関の信頼区間を計算することができます。 標準偏差が既知の正規分布の標本に対しては 1 標本 z 検定を、標準偏差が未知の標本に対しては t 検定を実行し、平均値の信頼区間を計算することができます。 また、2 標本 z 検定を実行して 2 つの母集団平均の差の信頼区間を計算することもできます。 対応のある(したがって相関関係のある)観測値に対して対応のある t 検定を実行し、2 つの平均値の均一性を調べることができます。 また、Poisson 分布の平均値に対する検定を行うこともできます。 複数の検定を実行する場合は、第 1 種の過誤の確率に対して、Bonferroni の補整および Dunn-Sidak の補整と呼ばれる 2 種類の補整を行うことができます。


2標本t検定

1標本t検定

回帰分析および分散分析には、各群の分散が等しいとの仮定が必要です。SYSTAT では、単一分散の検定、2 つの分散の均一性の検定、いくつかの分散の均一性に対するバートレットの検定および Levene の検定を使用することができます。 2 変量正規分布の標本に対しては、ゼロの相関関係および指定した値の相関関係の検定を行うことができます。 また、相関係数の均一性の検定を行うことができます。 出現率に対する検定では、単一の出現率および 2 つの出現率の均一性の検定を行うことができます。

平均値および分散に対する検定を実行するとグラフが生成されます。 この場合は、ボックス プロット、点密度プロット、および密度プロットが単一のフレームに重ねて表示されます。 相関係数に対する検定を実行すると散布図が生成されます。

仮説検定機能で再サンプリング プロシージャを使用することができます。


線形回帰 (Linear Models I: Linear Regression)

単純な線形回帰モデルは、次のように表されます。

y = β0 + β1x + ε

y は従属変数、x は独立変数、β は回帰パラメータ (もっともよく当てはまる直線の切片と勾配) です。多重線形回帰モデルは、次のように表されます。

y = β0 + β1x1 + β2x2 + … + βpxp+ ε

線形回帰機能には、多重線形回帰モデルをあてはめるために最小 2 乗回帰、リッジ回帰、およびベイジアン回帰の 3 種類の方法が用意されています。 最小 2 乗回帰では、線形単純および多重線形回帰モデルの予測とテストを行うことができます。ステップワイズ回帰を使用するには、デフォルト値を使用する方法、独自の選択基準を指定する方法、各ステップでモデルに追加/削除する変数を対話式に選択する方法、の 3 種類があります。最小 2 乗回帰にあてはめる各モデルについて、SYSTAT は R2、調整後の R2、推定値の標準誤差、モデルの当てはめを評価する分散分析表を出力します。 モデルの各変数について、出力には回帰係数の推定値、係数の標準誤差、標準化された係数、許容値およびモデル内の変数の有効性を示す t 検定量が示されます。

予測変数の相関関係が高い場合、多重共線性が存在する場合など、回帰係数の最小 2 乗推定量の標本変動性が大きくなる傾向があります。 このような場合、リッジ回帰を使用することで回帰係数の推定値の精度を高めることができます。 標準化係数と非標準化係数の 2 種類のリッジ係数が計算されます。リッジ因子とリッジ係数のグラフを作図することもできます。

ベイジアン回帰には、多重線形回帰モデルをあてはめる別のパラダイムが用意されています。 この機能で使用される回帰パラメータの事前分布は、(多変量)正規- ガンマ分布または拡散分布です。 回帰係数のベイズ推定値および信頼区間が計算されます。 また、事後分布のパラメータが、回帰係数の事前および事後密度のグラフと一緒に提供されます。

リサンプリング プロシージャは、最小 2 乗回帰でしか使用できません。


分散分析 (ANOVA) (Linear Models II: Analysis of Variance)

SYSTAT は釣り合い型と非釣り合い型のデータの分散分析を扱うことができます (Speed らの 1978 年の論文)。 分散分析 (ANOVA) には、モデル内の交互作用すべてが含まれており、それらの交互作用を自動的に検定します。また、共分散分析と反復測定用の分析も用意されています。分散分析モデルの推定後は、平均値の組の差を Post hock 検定で調べたり、単純な効果をはじめとするセル平均値を比較することが簡単にできます。

一定、またはランダムな効果を持つモデルについて、特定の仮定の誤差項を定義することができます。また、ステップワイズの分散分析 (タイプ 1 の平方和) を実行することもできます。カテゴリ変数をブロックに入力/削除して、対話的にまたは自動で、交互作用と主効果のすべての組み合わせを調べることができます。

一般線形モデル (GLM) 手順は、乱塊法、不完備ブロック計画 (Neter ら の 1996 年の論文)、一部実施要因計画、ラテン方格計画 (Cochran と Cox の 1957 年の論文、John の 1971年の論文)、および 1つ以上の共変量を持つ共分散分析に使用されます。 また、一般線形モデルには反復測定、分割区画デザイン (split plot design)、およびクロスオーバー計画もあります。反復測定計画には、一変量と多変量の両方の手法が使用できます (Bartlett の 1947 年の論文、Morrison の 1990 年の論文)。

さらに、一般線形モデルには欠測セルを持つ計画の平均モデルもあります。統計学者に幅広く支持される (Hocking の 1985 年の論文、Milliken と Johnson の 1984 年の論文、Searle の 1987 年の論文)、平均モデルは欠測セルを持つ計画での仮説を検定することができます (タイプ 4 の平方和を使用)。 さらに、平均モデルでは、単純仮説を直接検定することができます (例:他の因子の水準内)。最後に、平均モデルでは、集合の重みに下位クラスのサイズの差を簡単に反映させることができます。

分散分析と一般線形モデルの両方について、グループ化因子の組み合わせについて群のサイズを等しくする必要はありません。ただし反復測定計画では、各サブジェクトに完全なデータが必要です。数値や文字の値を使用してグループ化変数をコード化することができます。


一般線形モデル (Linear Models III:General Linear Models)

一般線形モデル (GLM) では、重回帰、分散分析や共分散の分析、および判別分析や主成分分析などを含む、単変量や多変量の一般線形モデルの推定と検定を行うことができます。 一般線形モデルでは、乱塊法、不完備型ブロック計画、一部実施要因計画、ラテン方格法、分割区画デザイン (split plot design)、クロスオーバー計画、ネスト、その他を調べることができます。モデルは次の式で表されます。

Y = XB + e

Y は従属変数のベクトルかマトリクス、X は独立変数のベクトルかマトリクス、B は回帰係数のベクトルかマトリクス、e は偶然誤差のベクトルかマトリクスです。詳細については、Searle の 1971 年の論文、Winer の 1971 年の論文、Neter と Wasserman の 1996 年の論文、Cohen と Cohen の 1983 年の論文を参照してください。

共変量モデルでは、Y は連続尺度のマトリクスです。X マトリクスは、モデルの種類により連続変数とカテゴリダミー変数のいずれもとることができます。判別分析では、X は分散分析の場合と同様にダミー変数のマトリクスです。主成分分析では、X は定数 (値 1 を持つ 1 列) です。正準相関では、X は通常、右辺の連続変数のマトリクス、Y は左辺の変数のマトリクスです。共変量モデルの一部では、分散分析 を使用するほうが簡単である場合があります。分散分析は複数の従属変数および 0、1、複数の独立のカテゴリ変数を扱うことができます (つまり、定数だけが前者に存在します)。分散分析は、計画因子について自動的に交互作用の項を生成します。

モデル内のパラメータの推定後、パラメータは次の式で表される一般線形仮説で検定することができます。

ABC’ = D

A は独立変数 (B の行) の係数の線形加重マトリクス、C は従属変数 (B の列) の係数の線形加重マトリクス、B は回帰係数または効果のマトリクス、D は帰無仮説マトリクス (通常はゼロマトリクス) です。

共変量モデルの仮説検定では、A マトリクス、C マトリクスおよび D マトリクスを使用することができます。推定する多変量モデルのパラメータを検定したり、モデルの2 次式を直交成分に因子分解することができます。リサンプリング プロシージャをこの機能で使用することができます。


ロジスティック回帰 (Logistic Regression)

LOGIT は、多重ロジスティック回帰、条件付きロジスティック回帰、計量経済学の離散選択モデル、一般線形 (Wald) の仮説検定、スコア検定、オッズ比と信頼区間、前方、後方および対話式のステップワイズ回帰、Pregibon の回帰診断、予測成功表 (Prediction success) と分類表の作成、独立変数の導関数と弾性の算出、モデルベースの回帰曲線のシミュレーション、リスクの十分位数表の作成、初期値を指定してデータの学習標本と検定標本への分割、擬似最尤法の標準誤差の算出、信頼区間を計算するための有意性の制御基準の算出、従属変数の 0/1 のコード化、ダミー変数の自動生成での参照群の選択、および総合グラフツールによる作図を行います。

モデル化、検定、または診断の手順で生成された多くの結果は、データファイルに保存でき、グラフィックスルーチンで表示することができます。


対数線形モデル (Loglinear Models)

対数線形モデルは、多元度数表の因子間の関係を分析するのに便利です。対数線形手順は、Newton-Raphson 法を使用して、対数線形モデルのパラメータの最尤推定値を計算します。ユーザーが指定したそれぞれのモデルについて、モデルの当てはめ検定が行われ、セルの観測度数と予測度数、対数線形パラメータの推定値 (λ)、推定値の標準誤差、標準誤差に対する各 λ の比、および乗法効果 ( EXP(λ) ) が計算されます。

各セルについて、Pearson のカイ 2 乗や尤度比のカイ 2 乗に対するセルの度数の寄与を要求することができます。 観測値の予測値からのずれを特徴付ける、偏差、標準化偏差、Freeman-Tukey の偏差、および尤度比の偏差が得られます。

最適モデルを見つけるときに、1 次の効果や交互作用の項を 1 回に 1 つずつ、または階層的に削除した後に (低次の効果を削除したときは対応する交互作用の項も削除される)、検定を要求することができます。モデルが階層的である必要はありません。

モデルは、多くのセルで度数をうまく表すことができますが、いくつかのセルではうまく表せないことがあります。LOGLIN は Freeman-Tukey の偏差を使用して、多くの異なるセルを特定し、異なるセルを除外してモデルを当てはめ、ステップワイズ手法を繰り返してモデルから外れたセルを特定します。構造的なゼロ頻度を持つセル (必然的に、または計画によりゼロになるセルで、標本化でゼロになるセルではない) を指定し、残っているセルのサブセットにモデルを当てはめることができます。このようなモデルの当てはめ検定は、擬似独立性の検定と呼ばれることがあります。

リサンプリング プロシージャをこの機能で使用することができます。


欠損値分析 (Missing Value Analysis)

欠損値分析は、不完全なデータにより発生するいくつかの問題を明らかにするのに役立ちます。欠損値を含むケースは、欠損値のないケースとはシステム的に異なり、結果を不明瞭にすることがあります。また、当初の計画よりも情報量が少ないので、欠損値を含むデータでは、計算される統計量の精度が下がることがあります。別の問題は、多くの統計手順の前提はケースに欠損値がないことに基づいており、欠損値により、必要な理論が複雑になるということです。

MISSING モジュールは、データ内の欠損値のパターンを表示し、分析します。この手順は、線形回帰、または EM アルゴリズムを使用して、相関、共分散、および偏差の外積マトリクスの最尤推定値を計算します。正規分布や t 分布を使用して、外れ値の重み付けを軽くすることができます。

計算される統計量には、欠損値のパターン、平均値、相関、分散と共分散、偏差の外積、および対ごとの度数表があります。さらに、EM 推定では、SYSTAT は Little の MCAR 検定の結果をレポートします。相関、共分散、または SSCP のマトリクスは、以降の分析のためにデータファイルに保存することができます。または、欠損値の位置に代入された推定値を保存することもできます。

リサンプリング プロシージャをこの機能で使用することができます。


混合回帰 (Mixed Regression)

混合回帰は、正規分布する応答データについて固定効果と変動効果の組み合わせを持つモデルを推定します。混合モデル、すなわち多水準モデルは、「階層的線形モデル」 (Bryk と Raudenbush の 2001 年の論文)、「ランダム係数モデル」(deLeeuw と Kreft の 1986 年の論文)、および「分散成分モデル」(Longford の 1993 年の論文)とも呼ばれます。SYSTAT での実装は、Hedeker と Gibbons (1996 年の論文) の MIXREG プログラムに対応しています。

これらのモデルには、共通の特性を持つ観測値が、水準 2 の単位として既知の、識別可能な群として分類可能で、水準 2 の単位内の観測値の入れ子が得られる、データ構造が必要です。混合回帰は変動効果を使用して、この入れ子構造によるデータの従属性を説明し、個々のデータ、および個々のデータが属する群の同時分析を可能にします。個々の水準 2 の単位 i について、混合回帰のモデルは、次のように表されます。

yi = Wiα + Xiβi + εi

y は従属変数、W は固定効果の計画マトリクス、α は固定回帰パラメータのベクトル、X は変動効果の計画マトリクス、β は単位 i に固有の効果のベクトル、ε は残差のベクトルです。変動効果のないモデルは標準回帰モデルと相似ですが、最小 2 乗法ではなく、周辺最尤度を使用してパラメータの推定値を計算します。

研究者は多くの場合、集落データと経時データの両方の分析に、混合回帰を使用します。集落データでは、異なるサブジェクトは、学校内の生徒のように大きな群内に入れ子になり、変動効果は集落間の差を表します。一方、経時データでは、観測値は各サブジェクト内に入れ子になります。この場合、個々のデータは「集落」として見られるので、変動効果はサブジェクト間の差を表します。

混合回帰、分散分析、および一般線形モデルはすべて、反復測定分析に使用することができます。ただし、他の 2 つの手順とは異なり、混合回帰は不釣り合い型のデータを分析します。さらに、自己相関構造を含めて、時間に伴う残差の相関をモデル化することができます。

当てはめる各モデルについて、ソフトウェアはパラメータの推定値、推定置換の相関、および級内相関係数をレポートします。また、変動効果について、empirical Bays (経験ベイズ) の推定値も表示することができます。水準 1、水準 2 の残差と予測値を含む、さまざまな統計量をファイルに保存して、以降の分析やグラフに使用することができます。


モンテカルロ (Monte Carlo)

モンテカルロ法 (Fishman, 1996、Gentle, 1998、Robert and Casella, 1999) は、生成したランダム標本を使用して分布関数の汎関数を推定するために使用します。 SYSTAT には、必要な目的の分布からランダム標本を生成するための、無作為抽出 (ランダムサンプリング)、IID MC、および MCMC の 3 種類のアルゴリズムが用意されています。

SYSTAT の無作為抽出を使用し、パラメータを指定して、33 種類のリストから選択した分布 (離散型および連続型、単変量および多変量) の多数の標本を指定した大きさで描画することができます。

所定の分布からランダム標本を直接的に生成する方法が不明の場合、または密度が完全には指定されていない場合には、IID モンテカルロ法がよく使用されます。 SYSTAT の IID モンテカルロ法は、単変量連続型分布からのランダム標本の生成にのみ使用できます。 IID モンテカルロ法は、2 つの一般的なアルゴリズム、棄却サンプリング (Rejection Sampling) および適応的棄却サンプリング (ARS) で構成されています。 これらの方法では、目的の密度用のエンベロープ (プロポーザル) 関数が使用されます。 プロポーザル密度とは、その密度から無作為標本を描画できる密度を表します。 棄却サンプリングでは、SYSTAT の 20 種類の単変量連続型分布のリストから提案分布 (Proposal distribution) を選択することができます。 ARS 法では、このアルゴリズム自体がエンベロープ (プロポーザル) 関数を生成します。 ARS 法は、対数凹形の目的密度にのみ使用することができます。


多次元尺度構成法 (Multidimensional Scaling)

多次元尺度構成法は、1D から 5D までの類似度や非類似度のマトリクスについてノンメトリック多次元尺度構成法を行います。多次元尺度構成法はデータを低減する強力な方法で、類似度や非類似度のマトリクスに直接、または相関で直交データから作成したマトリクスに使用することができます。

SYSTAT には、一般的な MDS パッケージの 3 つの関数 (KYST、SSA および ALSCAL) に対応する 3 つの MDS の損失関数 (Kruskal、Guttman および Young) があります。これら 3 つの方法は、類似の関数を実行します。これらのポイントの対の距離が、対応するオブジェクトの対応するセットについて測定される非類似度にできるだけ近く当てはめられるように、空間内のポイントのセットの座標を計算します。

主成分分析または因子分析と呼ばれる手順の一群は、関数では多次元尺度構成法と関係がありますが、多次元尺度構成法はこれらの一群とは次の重要な点で違いがあります。必ずというわけではありませんが、通常、多次元尺度構成法は、他の手順よりも少ない次元で、該当モデルを当てはめることができます。さらに、距離や非類似度の間で線形関係の前提を持たせられない場合でも、多次元尺度構成法は単純な次元モデルを提供します。

MDS は INDSCAL(個体差の多次元尺度構成法)モデルも計算します (Carroll と Chang の 1970 年の論文)。INDSCAL モデルは、複数のサブジェクトの非類似度/類似度マトリクスを 1 つの共通空間に当てはめ、合わせて各サブジェクトの加重パラメータを推定します (つまり、非類似度マトリクスは各サブジェクトの入力値で、個別に(単調)回帰関数が計算されます)。

MDS は、3 つの損失関数のいずれかを使用して INDSCAL モデルを当てはめますが、この目的では、Kruskal の STRESS を使用することをお勧めします。

最後に、MDS はノンメトリックの折り畳まれていないモデルを当てはめることができます。これにより、好みを示す順位データを分析することができます。


多変量分散分析 (Multivariate Analysis of Variance: MANOVA)

多変量分散分析 (MANOVA) 機能を使用して、1 元配置、2 元配置および多元配置多変量データの推定および検定、反復測定分析、および群内あるいは群間検定を行うことができます。 標準実験計画および交差とネスティングによる標準要因処理構造 (Standard factorial treatment structures) を使用して取得したデータの多変量解析も含まれています。

多変量分散分析は、パラメータ推定値および最小 2 乗平均値ベクトルが供給される基本分析から始まります。 次に、仮説検定の結果が続き、適切な統計量とその p 値に関する多変量検定の結果のほかに、各 (独立) 変数 (多変量データ ベクトルの成分) に対応する単変量検定の結果も供給されます。

この機能でリサンプリング プロシージャを使用することができます。


非線形モデル (Nonlinear Models)

非線形モデル化は、Gauss-Newton (SYSTAT は全微分を計算)、擬似 Newton、またはシンプレックスのアルゴリズムを使用して、さまざまな非線形モデルのパラメータを推定します。さらに、最小二乗以外の損失関数も指定できるので、最尤推定値も計算することができます。各パラメータの上下限値を設定することができます。パラメータが相互に高い相関にあり、かつ過剰適応の懸念がある場合、 1 つ以上の値を固定して、非線形モデルでフルモデルに対して結果を検定することができます。推定値がうまく収束しない場合、また局所最小値に収束する場合は、Marquardt 法を使用することができます。

パラメータ推定値の正当性を評価するために、非線形モデルには、Wald の信頼領域と Cook と Weisberg (1990 の論文) の視覚的な信頼曲線が用意されています。推定値が正規分布に従うという前提が適さない場合は、Cook-Weisberg の信頼曲線が便利です。また、損失関数の値を保存して、パラメータ空間の二変量表示で等高線をプロットすることができます。これにより、パラメータの推定値と、ほぼ等しい損失関数の値の組み合わせを調べることができます。

応答に外れ値がある場合、中央値、Huber、トリム、Hampel、t、二重平方、Ramsay、Andrews、Tukey、データの除去、残差の絶対値の p 乗など、非線形モデルのロバストな ψ 関数のいずれかを使用して、残差の重みを軽くすることをお勧めします。

パラメータの関数 (例:ロジスティックモデルの LD50) を指定することができます。SYSTAT は各反復で関数を評価し、反復終了後に推定値の標準誤差と Wald の区間を出力します。

リサンプリング プロシージャをこの機能で使用することができます。


ノンパラメトリック検定 (Nonparametric Tests)

ノンパラメトリック検定は、ケースの群、および変数の対についてノンパラメトリック検定を実施します。2 つ以上の独立ケースの群、2 つ以上の従属変数、および 1 つの変数の分布について、検定を行うことができます。

ノンパラメトリック検定では、データが特定の確率分布に従うという前提はありません。ノンパラメトリックモデルは多くの場合、正規理論に基づく平均値や標準偏差などの、通常のパラメータが適用されない場合に、適しています。ただし、通常は、形状や連続性に関するほかの前提が指定されます。データについて、パラメトリック検定を実行できる正規化の変換ができる場合は、通常、変換を行ってパラメトリック検定を行うことをお勧めします。

いくつかのノンパラメトリック検定が使用できます。Kruskal-Wallis の検定と 2 標本の Kolmogorov-Smirnov の検定は、2 つ以上の独立のケース群における 1 変数の差を測定します。符号検定、Wilcoxon の符号Rank 検定、および Friedman の検定は、関連する標本間の差を測定します。1 標本の Kolmogorov-Smirnov の検定と Wald-Wolfowitz Runs 検定は、1 変数の分布を調べます。

多くのノンパラメトリック検定量は、SYSTAT のほかのモジュールでも計算されます。相関は、Spearman の ρ、Kendall の τ-b、Guttman の μ2、Goodman-Kruskal の γ など、係数マトリクスを計算します。記述統計では幹葉表示を行い、ボックスプロットでは箱ヒゲ図に中央値と四分位点を示します。時系列はノンメトリックなスムースを行うことができます。クロス集計は、独立性のカイ 2 乗検定に使用することができます。多次元尺度構成法 (MDS) と Cluster Analysis は、ノンメトリックなデータマトリクスを扱います。最後に、ランクを使用して、さまざまな順位の統計量を計算することができます。リサンプリング プロシージャをこの機能で使用することができます。

  • 注記:ノンパラメトリック手順は、悪いデータを救済するために使用することに注意してください。多くの場合、上記の手順は、判断の順位や 2 値データなどの、カテゴリまたは順位データに適用するように設計されています。線形モデルの分布の前提を満たさないデータがある場合、ノンパラメトリックを使用する前に、変換やロバストモデルを検討する必要があります。

座標を持つ半順序化された尺度分析法 (スケイログラム分析) (Partially Ordered Scalogram Analysis with Coordinates)

POSAC モジュールは、複数のカテゴリを持つ項目のセットについて、部分半順序化された尺度分析法 (スケイログラム分析) を行います。重複するデータの面グラフの統合、面グラフの類似度係数の計算、および半順序モデルによる 2D 空間内のポイントの構成の反復計算を行います。POSAC は構成のクイック グラフを作成し、面グラフの値、または ID 変数のラベルを付けます。Shye の論文 (1985 年) は、POSAC についての権威的な参考文献です。また、Borg の評論(1987 年)に詳細が記載されています。POSAC 分析の研究を始めるための最適な手法は、ファセット理論を使用することです (Canter の 1985 年の論文)。

リサンプリング プロシージャをこの機能で使用することができます。


パス解析(RAMONA) (Path Analysis (RAMONA))

RAMONA は、顕在 (manifest) 変数、および潜在 (latent) 変数を持つパス解析について、McArdle と McDonald の Reticular Action Model (RAM) を実行します。プログラムへの入力値は、他のマトリクスを参照せずに、直接パス図からコード化されます。

RAMONA は、RAM Or Near Approximation (RAM またはほぼ近似) の略です。RAM の偏差は小さく、残差の変数とほかの潜在変数との区別は付けられません。RAM と同様に、2つのパラメータだけを持つマトリクスがモデルで使用されます。1 つのパラメータは、パス図の一方向矢印 (パスの係数) を表し、もう 1 つのパラメータは二方向矢印 (共分散の関係) を表します。

RAMONA は、相関マトリクスのパス解析モデルを正しく当てはめることができ、相関マトリクスを共分散マトリクスとして扱うときに発生する誤差を防ぎます (Cudeck の 1989 年の論文)。さらに、外生 (exogenous) と内生 (endogenous) の両方の潜在変数の分散を 1 にするよう要求することができます。したがって、標準化されたパス係数の推定値、および関連する標準誤差を得ることができ、標準化されていないパス係数による解釈の困難さ (Bollen の 1989 年の論文) を取り除くことができます。


知覚的マッピング (Perceptual Mapping)

PERMAP には、2 種類のツール群があります。第 1 のツール群は、サブジェクトとオブジェクトを共通空間に当てはめる手順の群です。このグループには、Carroll (1972) の内部および外部折りたたみなしモデル、 MDPREF および PREFMAP、および MDPREF を少し修正した Gabriel (1971) の BIPLOT が含まれています。 第 2 の群は、一般的に Procrustes の回転と呼ばれる、ある次元の構成を別の次元の構成に関連付ける手順のセットです。直交の Procrustes の回転と、さらに一般的な正準回転が使用できます。

PERMAP は不適切な名前です。組み込まれている多くの手法は知覚的マッピングに使用されてきましたが、市場調査や心理学以外の応用もあり、さらにバイプロットと同様に、出自は他の分野である可能性もあります。さらに、多次元尺度構成法、コレスポンデンス分析、主成分分析などの古典的な知覚的マッピング手法は、SYSTAT のほかの部分にあります。結局、このモジュールのほぼすべての手法が特異値分解に関係し、個々のモジュールに分けるほどの量がないので、1 つのモジュールにまとめられています。


検出力分析 (Power Analysis)

特定の実験計画について、検出力分析 (POWER) は、標本数と、統計的な有意性に到達する確率の間の関係を調べます。使用できる実験計画には、次のものがあります。

  • 1 つの割合を値と比較する。
  • 2 つの独立する割合の同等性。
  • 1 つの相関係数を値と比較する。
  • 2 つの相関係数の同等性。
  • z 検定 (1 標本と 2 標本)。
  • t 検定 (1 標本、対応あり、2 標本)。
  • 一元配置分散分析。
  • 二元配置分散分析。

他の計画の検出力の計算は、一般の検出力分析で行うことができます。この場合、自由度と非心パラメータを指定して、分析を実行します。この方法は、一般要因計画、乱塊法、固定効果の回帰、その他の計画に使用することができます。

一般的に、検出力は関与する母集団のパラメータ、誤差が起きる確率、および標本数によって異なります。固定誤差率と母集団のパラメータセットについて、特定の検出力水準に到達するために必要な標本数、または指定の標本数に対する検出力を得ることができます。また、標本数の範囲について、各標本に対する検出力を得ることもできます。

以降の分析で使用するために、結果をデータファイルに保存することができます。固定の標本数や検出力の水準について、効果サイズや α 水準を変更したり、単一ファイル内の保存推定値を連結することができます。得られたファイルから、検出力曲線の重ね合わせ、等高線図、モザイクプロット、または検出力曲面を使用して、検出力、α、効果サイズ、および標本数の関係を示すカスタムグラフを作成することができます。


確率の計算 (Probability Calculator)

確率計算機能を使用して、確率密度関数、累積分布関数、逆累積分布関数、およびさまざまな単変量離散および連続確率分布の上側確率を計算することができます。 連続型分布では、確率密度関数と累積分布関数のグラフが表示されます。


プロビット分析 (Probit Analysis)

PROBIT モジュールは、PROBIT 一般線形モデルのパラメータの最尤推定値を計算します。修正 Gauss-Newton アルゴリズムにより推定値が計算されます。従属変数は便宜的に 0 か 1 にコード化しますが、PROBIT モジュールは従属変数がカテゴリ変数であると見なし、自動的に従属変数の値を再コード化します。モデルには、カテゴリの予測変数 (ダミーコード) と交互作用の項が含まれることがあります。


品質分析 (Quality Analysis)

SYSTAT の品質分析機能には、品質管理および改善に役立つ新しい統計手法と実績のある統計ツールが用意されています。 この品質分析には、基本的な統計ツールから生産過程に適用されるオンライン品質管理までの総合的な機能が含まれています。 SYSTAT で、さまざまな管理図、ヒストグラム、パレート図、箱ヒゲ図、ゲージ R & R 研究、工程能力分析、シグマ測定、タグチの損失関数、およびベータ補整法を使用したタグチのオンライン管理を使用することができます。 また、SYSTAT には、8 種類の統計分布の平均工程曲線および検査特性曲線も用意されています。

良く設計され管理された製造工程であっても、全く同一の製品は存在せず、変動は避けられません。SYSTAT のヒストグラムおよび箱ヒゲ図は、データのこのような変動の捕捉に役立ちます。 パレート図を使用すれば、最もよく発生する欠陥のタイプをすぐに目視で確認することができます。

工程改善プロジェクトの最初のステップは、反復性および再現性を調べることです。 SYSTAT のゲージR & R (Gauge R & R) 研究機能には、測定システムにおける部分対部分の変動、再現性、反復性の測定と、それに対応したグラフ表示が用意されています。 また、SYSTAT では、これらおよびゲージ R& R 指標の信頼区間も調べることができます。

SYSTAT の工程能力分析は、指定した基準に対する工程の均一性を調べることが目的です。 さまざまな工程能力測定および工程性能測定のほかにも、SYSTAT では、正規分布とさまざまな非正規分布で同一のグラフ出力を使用することができます。

シグマ測定機能を使用して、指定した DPMO (100 万回あたりの欠陥数) に対する量的特性について、工程のシグマ水準を計算することができます。 また、この機能を使用して、多段工程の歩留まりを調べることができます。目標値の性質に基づいて、タグチの損失関数を計算することができます。目標値の性質として、通常は、望目特性、望小特性、望大特性の 3 種類を考えます。 SYSTAT では、この 3 種類のすべてを使用することができます。 タグチは、目標値のばらつきを測定するための信号対雑音 (S/N) 比と呼ばれる測度も提案しています。 これは製品の信頼性の測度で、品質損失関数を使用して S/N 比を求めることができます。 SYSTAT では、3 種類の目標値に対する S/N 比を調べることができます。


ロバスト回帰 (Robust Regression)

「ロバスト回帰」機能には、データに外れ値が含まれている場合の多重線形回帰モデルのあてはめに使用する、LMS 回帰 (最小二乗メディアン) プロシージャおよびランク回帰プロシージャが用意されています。 また、「非線形モデル」の「ロバスト」オプションを使用して、最小絶対偏差 (LAD) 回帰および M 回帰 (M-Regression) を実行することができます。 応答空間および予測空間に外れ値が存在するときは LMS 回帰が使用できますが、応答方向に外れ値が存在するときは LAD および M 回帰プロシージャの方が適切です。ロバスト回帰機能の LMS 回帰は、残差の平方の中央値を最小化することにより、頑健なあてはめを生成します。 また、残差/データ回帰係数を保存することができます。

ランク回帰はノンパラメトリック回帰を実行します。 残差の順位に基づくスコア関数を最小化します。 回帰係数を保存することができます。


セットの相関と正準相関 (Set and Canonical Correlations)

SETCOR はセットの相関 (Cohen の 1982 年の論文) と正準相関 (Hotelling の 1935、1936 年の論文) を計算します。当初は大型汎用プログラム CORSET 用に開発されたアルゴリズム (Cohen と Nee の 1983 年の論文) と、その後 PC プログラム SETCORAN 用のアルゴリズム (Eber と Cohen の 1987 年の論文) を基にしていますが、SYSTAT のプログラムはまったく新しいソースコードです。Cohen and Lewis (1988) による統計検定の補正が、SYSTAT にも取り入れられています。

最後に、SETCOR は Stewart と Love (1968 年の論文) の canonical redundancy index を計算し、正準変量を回転します。

この機能でリサンプリング プロシージャを使用することができます。


Signal Detection Analysis (信号検出分析)

SIGNAL モジュールは、Green と Swets の論文 (1966 年)、Egan の論文 (1975 年)、その他で説明された信号検出理論に適するデータ分析を行います。興味深い最近の応用については、Swets と Pickett の論文 (1982 年)、Swets の論文 (1986 年)、および Kraemer の論文 (1988 年) に記載されています。

SIGNAL が分析する応答データは、2 ~ 11 個の応答カテゴリで構成することができます。したがって、2 値データや順位尺度を分析することができます。カテゴリの境界位置を含めて、モデルのすべてのパラメータの最尤推定値を計算するために、反復手法が使用されます。数値の出力に加えて、ROC 曲線のグラフを出力することができます。

SIGNAL では、一般的な正規分布モデルやノンパラメトリックモデルに加えて、多数の統計モデルに基づいて分析を行うことができます。追加のモデルとしては、ロジスティックモデル、負の指数モデル、カイ 2 乗モデル、Poisson モデル、およびγ 分布モデルがあります。これらのモデルは、検出器の特性に関する前提セットがこれらのモデルのうちの 1 つを規定する、さまざまな種類の検出タスクで便利です。これらの別のモデルの説明は、Egan の論文 (1975 年)に記載されています。

モデルで得られたパラメータ推定値は SYSTAT のファイルに保存することができ、ROC 曲線の座標も保存できます。


スムース (Smoothing)

SMOOTH モジュールは、2D または 3D のデータ研究にノンパラメトリックスムース曲線を適用します。ノンパラメトリックスムースでは、データのサブセットの加重関数により、領域の局所推定値が得られます。各領域が平滑推定値を受け取るので、これらの推定値の集団は、パラメトリックスムースで見られる複雑なモデルや追加のパラメータなしに、局所の変動性を捕捉します。ノンパラメトリックスムース曲線を構成するには、次の操作が必要です。

  • 推定領域のサイズ指定。推定領域は、近傍点数、またはデータの固定範囲として定義されます。
  • 加重変数の定義。スムースには、データの加重関数として、Epanechnikov、biweight、triweight、tricube、一様、Gaussian、および Cauchy の 7 種類があります。
  • 重み付けされた観測値を組み合わせる手法の割り当て。推定値は、平均値、調整平均値、中央値、多項式回帰の推定値、またはロバスト推定値として計算することができます。

推定ウィンドウ、加重関数、およびスムース方法の組み合わせにより、126 種類のノンパラメトリックスムース曲線が得られます。各スムース曲線について、指定のグリッド点、または予測変数のデータ値を推定することができ、以降の分析に備えて結果をデータファイルに保存することができます。この機能で再サンプリング プロシージャを使用することができます。


空間統計(Spatial Statistics)

SYSTAT は 2D または 3D の空間指向のデータセットについてさまざまな統計量を計算します。バリオグラムは空間モデルの同定に役立ちます。クリッギングは空間予測について、2D と 3D のクリッギング法を提唱しました。シミュレーションは、モンテカルロ法を使用する空間モデルを具体化します。最後に、Voronoi のポリゴンの面積 (体積)、直近近傍値の距離、ポリゴンの面の個数、および 2 次計数を含むポイントベースのさまざまな統計量が計算されます。グラフが自動的にプロットされ、これらさまざまな統計量についてのサマリーが出力されます。

SYSTAT の Spatial の地理統計学的ルーチンは、GSLIB (Deutsch と Journel の 1998 年の論文) に基づいています。ポイント統計量は、2D または 3D の構成の Voronoi/Delaunay の分割から計算されます。

この機能で再サンプリング プロシージャを使用することができます。


生存分析 (Survival Analysis)

SURVIVAL は群分けした、右側打ち切り、および区間打ち切りした生存データを調べ、最尤法によりノンパラメトリック、部分パラメトリック、およびフルパラメトリックのモデルを推定することができます。SURVIVAL モジュールの、不連続および重なり合う区間打ち切りデータ、および区間打ち切り、右側打ち切り、および厳密な故障 (exact failures) (Exact failure) 回数の組み合わせを処理できる機能は、他のプログラムよりも大幅に強化されています。

SURVIVAL の機能には、カプランマイヤーの推定量、Turnbull の区間打ち切りデータに対するカプランマイヤー推定量の一般化、故障と打ち切りの回数、標準化された対照分布の四分位点グラフ、log-rank 検定、比例ハザード (Cox) 回帰、および Weibull、対数正規、ロジスティック、および指数回帰のモデルがあります。すべてのモデルは共変量がある場合もない場合も推定でき、直接、またはステップワイズな回帰手順が行われます。カプランマイヤーの推定量、四分位点グラフ、および Cox 回帰のすべてで層別化を行うことができます。生存関数、ハザード関数、信頼性、および四分位点は、特定の共変量値を持つパラメトリックモデルから生成され、ベースライン危険は Cox モデルと層別化 Cox モデルから得られます。

もっとも解析的な手法の結果は、他の SYSTAT モジュールで以降の操作と分析を行うために、SYSTAT ファイルに保存することができます。

  • 関連情報:SYSTAT の生存分析

  • テスト項目分析 (Test Item Analysis)

    TESTAT には、応答側セットのそれぞれ (ケース) ごとに、テスト項目 (変数) のセットのそれぞれに対する応答で構成された検定の、古典的分析と Logistic Item-Response 分析があります。古典的分析は、検定の統計量のサマリー、信頼性係数、選択したスコアの区間の標準誤差、項目分析の統計量、および各ケースの統計量を出力します。数値出力と共に、グラフも表示されます。

    テスト項目が「正と誤」の種類である場合、各応答側の個々の項目を評点化することができます。ただし、TESTAT はこの種のデータに限定されているわけではありません。SYSTAT で使用できる、数値をとるどの変数でも分析することができます。したがって、真偽の検定、複数選択検定 (multiple-choice tests)、順位尺度、生理学的な測定、その他のデータはすべて、古典的検定の理論モデルを使用して、TESTAT で分析することができます。

    ロジスティックな Item-Response 理論を使用する分析は、反復的な最尤法を使用してTESTAT で実行され、項目の困難度、項目の判別指標、およびサブジェクトの能力を推定します。

    パラメータ 1 個、または 2 個のロジスティックモデルを選択することができます。各項目のモデルへの当てはめを調べるための、項目のヒストグラムを出力することができます。TESTAT は、サブジェクトのスコアを SYSTAT のファイルに保存することができます。

    BY を使用すると、指定の応答側 (ケース) のどの下位群についても、検定を分析することができます。また、分析する部分検定として、項目(変数)のサブセットを指定することができます。また、TESTAT は、項目を集積する目的で、項目の困難度と判別指標を保存することができます。この機能で再サンプリング プロシージャを使用することができます。


    時系列 (Time Series)

    「時系列」モジュールには、線形および非線形フィルタリング、フーリエ解析、季節分解、非季節性と季節性の指数スムージング、非季節と季節の ARIMA に対する Box-Jenkins の方法 (Box et al., 1994) など、さまざまな時系列モデルが実装されています。変換、スムース、無季節化の系列 (deseasonalized series)、および予測の結果を保存して、SYSTAT の他の手順で使用することができます。時系列分析の一般的な方法は、次のとおりです。

    • 「時系列プロット」、「ACF」、「PACF」、または「CCF」を使用して時系列をプロットする。
    • 時間に伴う分散を定常化させるため、または時系列を固定するために、変換を使用してデータを変換する。
    • 移動平均、移動中央値、または LOWESS や指数関数的スムースを使用する一般線形フィルタを使用して、時系列をスムースする。
    • ARIMA を使用して、モデルを当てはめる。
    • スムース後の結果、または予測結果をプロットして、結果を確認する。特定の時系列分析を実行する前に、欠損値の処理方法を指定することができます。
    • 「補間」:DWLS (距離で重み付けする最小 2 乗法) を使用して、欠損値を補間します。DWLS は、時系列の欠けていない各点を距離で重み付けする、局所 2 次近似曲線で補間します。このアルゴリズムでは、時系列内の欠けていない値すべてが、欠測データの推定に使用されるので、補間点により複雑な局所の情報をモデル化することができます。
    • 「削除」:補間を行わず、先行する欠けていない値だけが分析に使用されます。1 つ以上の欠損値で始まる時系列では、1 つ以上の欠けていない値の後にある時系列が、最初の欠損値から削除されます。このオプションにより、たとえば、時系列の欠けていない一部分から、ユーザーが欠損値を予測することができます。その後、これらの予測値を時系列に挿入し、必要に応じて時系列の以降でこの手順を繰り返すことができます。

     


    2 段階最小二乗法 (Two-Stage Least Squares)

    TSLS モジュールは、2 段階最小二乗法 (TSLS) と 2 段階補助変数 (White の 1984 年の論文) を使用する同時方程式体系を推定する目的で設計されています。第 1 段階では、独立変数が補助変数に回帰されます。第 2 段階では、従属変数が独立変数の予測値 (第 1 段階で得られる) に回帰されます。TSLS は、通常の最小 2 乗法 (OLS) モデルや補助変数モデルの分散不均一性で一貫する (heteroskedasticity の一貫性) 標準誤差を計算し、分散不均一性と非線形性の診断検定を行います。また、TSLS は誤差の多項分布のラグ構造の回帰も計算します。