HOME > テクニカルサポート > SYSTAT > 生存分析
ヒューリンクステクニカルサポート
SYSTAT に関する皆様からのご質問のうち、よくある質問を掲載しました。
SYSTAT の生存分析
SYSTAT 製品ページ

TOP > 生存分析> 例

Turnbull の推定:区間打ち切りされたデータの K-M

カプランマイヤーの推定量は、1958 年に当初紹介されたように、厳密な故障 (Exact failure) と右側打ち切りのデータに制限されています。これは単純に、次のように定義されます。

j*t{j} < t{i} となるセットj で、d{j} は時刻 t{j} の死亡数、r{j} は危険数 (故 障していない、または時刻 t{j} 直前で打ち切られた個数) です。

連続しない区間があり、右側打ち切りが行われている可能性があるタイプ 2 のデータでは、K-M 推定量は、上記の定義が適用されるように拡張されます。d{j}j 番目の区間における故障数を示し、該当する区間の上限直後に右側打ち切りが行われるという前提を持ちます。

タイプ 3 のデータでは、カプランマイヤーの推定量を一般化するには、この式から大幅に離れる必要があります。この一般化 K-M 推定量は Peto (1973 年の論文) によりはじめて提唱され、Turnbull (1976 年の論文) によりさらに発展されました。タイプ 3 のデータは重なり合う区間打ち切りデータを持ち、厳密な故障 (exact failure) と右側打ち切りも持つ可能性があるので、最初のタスクは、生存関数が減少すると推定される区間を特定することです。この推定量は標準的な参考文献では説明されていないため、ここでその方法を簡単に説明します。

データがタイプ 3 の場合、各ケースは、打ち切りまたは故障の区間を定義する、左右の時間境界 (L{i}R{i} ) を持つと見なされます。厳密な故障 (Exact failure) のケースでは L{i} = R{i}、右側打ち切りの観測値では R{i} は無限大、区間打ち切りの故障では L{i} < R{i} です。Peto-Turnbull の一般化では、はじめに故障確率が推定される、不連続な時間区間の固有セットを特定します。これらの区間は、左側の境界から下限値、右側の境界から上限値を選択することにより構成されるので、これらの新しい区間には、境界を除いて、観測された L{i}R{i} はありません。

たとえば、次のようなタイプ 3 のデータセット TYPE3A を考えてみます。

LTIME TIME WEIGHT CENSOR
1.0 2.0 4 -1
1.0 2.0 5 -1
1.9 3.0 5 -1
4.0 5.1 3 -1
4.0 4.2 8 -1
5.0 6.0 10 -1
7.0 8.0 6 -1
7.0 9.0 4 -1

データには 7 つの観測区間があり、次の 4 つの区間は、Turnbull 推定量により生成されます。

lower (q) upper (p)
1.9 2.0
4.0 4.2
5.0 5.1
7.0 8.0

Peto (1973 年の論文) と Turnbull (1976 年の論文) の両者は、下限値は q、上限値は p と 呼んでいます。第 1 区間の決定について説明します。ケース 1 ~ 3 は区間 (1.0, 3.0) 内で相互に重なり合っており、明白な左側の境界は 1.0 と 1.9、明白な右側の境界は 2.0 と 3.0 です。区間 (1.9, 2.0) は、他の終点を含まない境界から構成可能な唯一の区間です。具体的には、(1.0, 2.0) には左側の終点 1.9 があります。構成された区間は最小サイズで、区間に拡がるケースの最大の重なりがあります。

同様な方法で、残りの区間が生成されます。直観的に、目的は故障確率が存在する区間を特定することです。故障が 1.9 ~ 3.0 で発生し、また 1.0 ~ 2.0 で発生すると仮定すると、すべての確率を可能性のあるもっとも小さい区間に割り当てようとすると、部分区間 (1.9, 2.0) が選択されます。

Turnbull は、最尤ノンパラメトリックの累積分布関数 (CDF) が確率をこの区間だけに割り当て可能であることを示しました。さらに、確率割り当ての指定セットについて、尤度は区間内の CDF の挙動とは独立であり、CDF が区間内でまったく任意です (Wang の 1987 年の論文)。

一般化カプランマイヤーの推定量を計算する第 2 段階は、確率を各 (q{i}, p{i}) の区間に割り当てることで、これによりデータの尤度を最大にする CDF を定義します。確率の解ベクトル s は、Dempster、Laird、および Rubin (1977 年の論文) の EM アルゴリズムにより得られます。特に、観測されたデータの度数分布は、s で指定された予測度数に等しくなる必要があります。

分析の入力は、次のようになります。

USE TYPE3A
SURVIVAL
MODEL TIME / CENSOR=CENSOR, LOWER=LTIME
FREQ=WEIGHT
ESTIMATE
LTAB

TYPE3A のデータセットから、次の出力が得られます。

SYSTAT Rectangular file C:\Program Files\SYSTAT 11\Data\TYPE3A.SYD,
created Fri Jun 25, 2004 at 16:20:50, contains variables:

LTIME	TIME	WEIGHT	CENSOR

Case frequencies determined by value of variable WEIGHT.

Time variable: TIME
Censor variable: CENSOR
Weight variable: WEIGHT
Lower variable: LTIME
Sorting was found to be required on the following special variables:
TIME
Sorting activated, input continues.

Case frequencies determined by value of variable WEIGHT.
Input records:            8
Records kept for analysis:            8

Weighted
Censoring          Observations   Observations

Exact Failures                  0
Right Censored                  0
Interval Censored               8

Type 3, general censoring (left censoring and/or nondistinct intervals).
Analyses/estimates: Kaplan-Meier (generalized) and parametric models
Overall time range: [       1.000 ,        9.000]
Failure time range: [       1.000 ,        9.000]

Turnbull K-M estimation
All the data will be used

Iter          L-L
0      -60.304
1      -59.757
2      -59.757

Convergence achieved in 2 iterations
Final convergence criterion:        0.000     -59.757

Turnbull K-M      Density
Lower Time   Upper Time  Probability       Change

1.900        2.000        0.689        0.311
4.000        4.200        0.481        0.207
5.000        5.100        0.222        0.259
7.000        8.000        0.000        0.222

EM アルゴリズムは多くの場合収束に時間がかかりますが、各反復で尤度が増加するという利点があります。EM の収束の理論的な説明は、Wu の論文(1983 年) に記載されています。

前のページにもどる