HOME > テクニカルサポート > SYSTAT > SYSTAT 11 生存分析
ヒューリンクステクニカルサポート
SYSTAT に関する皆様からのご質問のうち、よくある質問を掲載しました。
SYSTAT 11 テクニカルサポート
SYSTAT 製品ページ

SYSTAT の生存分析

Dan Steinberg, Dale Preston, Doug Clarkson, and Phillip Colla


SURVIVAL は群分けした、右側打ち切り、および区間打ち切りした生存データを調べ、最尤法によりノンパラメトリック、部分パラメトリック、およびフルパラメトリックのモデルを推定することができます。SURVIVAL モジュールの、不連続および重なり合う区間打ち切りデータ、および区間打ち切り、右側打ち切り、および厳密な故障 (exact failures) (Exact failure) 回数の組み合わせを処理できる機能は、他のプログラムよりも大幅に強化されています。

SURVIVAL の機能には、カプランマイヤーの推定量、Turnbull の区間打ち切りデータに対するカプランマイヤー推定量の一般化、故障と打ち切りの回数、標準化された対照分布の四分位点グラフ、log-rank 検定、比例ハザード (Cox) 回帰、および Weibull、対数正規、ロジスティック、および指数回帰のモデルあります。すべてのモデルは共変量がある場合もない場合も推定でき、直接、またはステップワイズな回帰手順が行われます。カプランマイヤーの推定量、四分位点グラフ、および Cox 回帰のすべてで層別化を行うことができます。生存関数、ハザード関数、信頼性、および四分位点は、特定の共変量値を持つパラメトリックモデルから生成され、ベースライン危険は Cox モデルと層別化 Cox モデルから得られます。

もっとも解析的な手法の結果は、他の SYSTAT モジュールで以降の操作と分析を行うために、SYSTAT ファイルに保存することができます。

  1. 「生存分析」ダイアログ ボックス
    1. オプション
    2. テーブルとグラフ
    3. 時間依存性共変量
  2. コマンドの使い方
  3. 使用時の検討事項
  4. 例:
    1. 生命表:カプランマイヤーの推定量
    2. 生命保険数理(生命表)
    3. 層別化カプランマイヤー推定
    4. Turnbull の推定:区間打ち切りされたデータの K-M
    5. Cox の回帰
    6. 層別化された Cox の回帰
    7. ステップワイズ回帰
    8. フルパラメトリック分析用の Weibull のモデル
  5. 計算
    1. アルゴリズム
    2. 欠損値
    3. パラメータ
    4. センタリング
    5. 対数尤度
    6. 反復
    7. 特異なヘシアン
    8. 生存モデル
    9. 比例ハザードモデル
    10. ln(-ln(survivor)) のプロットと四分位点プロット
    11. 収束とスコア検定
    12. ステップワイズ回帰
    13. 四分位点、ハザード、および信頼性の分散
  6. 参考文献

「生存分析」ダイアログ ボックス

生存分析は、モデルを指定して推定することにより計算されます。これは、Weibull などのパラメトリックモデル、および Cox の回帰やカプランマイヤーの曲線などのノンパラメトリックモデルの両方について当てはまります。カプランマイヤーのモデルや共変量のない他のモデルなど、すべてのモデルについて、モデルの指定は、単純に生存変数、打ち切り変数、および層変数を指定することにより行われます。生存関数のプロット、モデルからの生命表の計算、四分位点の要求などの、Post hoc テストも実行できます。

「生存分析」ダイアログ ボックスを開くには、メニューから次のように選択します。

  • 「解析」
    • 「生存分析...」


  • 「時間」:生存変数を指定します。生存変数は通常、ガン患者の生存期間や失業期間などの時間の測定値ですが、重さ、旅行の長さ、または負や 0 の値をとらない他の変数でも構いません。
  • 「共変量変数」:共変量変数を指定します。共変量は数量的な予測変数です。
  • 「打ち切り変数」:打ち切りの指示変数を指定します。打ち切り変数は通常、完全な(打ち切りのない)期間は 1、不完全な(打ち切りのある)期間は 0 にコード化される指示変数です。打ち切り変数は、出生や死亡などのイベントが観測されるかどうかを示すので、イベント変数と呼ばれることもあります。生存分析では、打ち切りデータを使用できますが、打ち切りデータは必須ではありません。観測値がすべてある場合、各ケースの打ち切り変数は 1 になります。
  • 「下限変数」:区間打ち切りに使用される、下限変数を指定します。データが右側打ち切りされ、厳密な故障(exact failure)だけの場合は、この変数はデータセットには不要です。

生存変数、打ち切り変数、および下限変数のコーディングは、データが区間打ち切りされたかどうかによって異なります。次のコーディング方式を使用します。

ケースのステータス 生存変数 打ち切り変数 下限変数
厳密な故障
(Exact failure)
失敗回数 1  
右側打ち切り 打ち切り時間 0  
区間打ち切り 上限 -1 下限

下限変数を指定する場合は、前述の方式に従ってコード化する必要があります。データの入力時に、下限変数と打ち切り変数について、一定の内部データの変更が行われます。厳密な故障 (exact failure) では、下限変数が含まれる場合、生存変数と等しいとして設定されます。右側打ち切りの場合は、下限変数が入力される場合、-1 に設定されます。区間打ち切りの場合は、下限値は非負で、かつ生存変数の値以下である必要があります。SURVIVAL が、生存時間に等しい下限値を持つ区間打ち切りの観測値を検出した場合、打ち切りが厳密な故障 (exact failure) に変更されます (打ち切り変数が 1 に設定される)。これらの変更は、SURVIVAL での便宜のためにだけ行われ、入力プロセスの途中でデータを保存した場合にだけ、これを知ることができます。

さらに、層別化 (ブロック化) 変数を指定することもできます。

オプション

「生存分析」ダイアログ ボックスの「オプション」タブをクリックします。

「オプション」タブを使用して、収束および許容値水準の指定、全体またはステップワイズ推定の選択、および追加と削除の基準の指定を行うことができます。

  • 「収束」:収束基準を設定します。これは、反復を終了する前の座標の最大の相対変化です。
  • 「許容値」:すでにモデルに追加されている独立変数と高い相関を持つ変数を追加しません。0 ~ 1 の値を入力します(0.01 と 0.001 が一般的な値)。値が高いほど(1 に近いほど)、変数を削除するための相関値が低くなります。
  • 「推定」:式に変数を追加、または削除するための手法を制御します。すべての独立変数が 1 ステップで追加される全体の推定では、初期値を入力することができます。計算ルーチンの初期値は、モデルが指定されると必ず自動的に計算されます。独自の値を指定する十分な理由がない場合、または Cox モデルでスコア検定を行わない場合には、計算された初期値を使用することをお勧めします。
  • モデルに変数が 1 回に 1 つずつ追加、削除されるステップワイズ推定では、ステップワイズな追加と削除について次の方法が使用できます。
    • 「後方」:候補変数をすべてモデルに入れた状態から始めます。各ステップで、SYSTAT は「取り除く」値が最大の変数を削除します。
    • 「前方」:モデルに変数がない状態から開始し、各ステップで SYSTAT が最小の「加える」値を持つ変数を追加します。
    • 「自動」:「後方」では、各ステップで SYSTAT が自動的にモデルから変数を削除します。「前方」では、各ステップで SYSTAT が自動的にモデルに変数を追加します。
    • 「対話的」:モデル構成プロセスの各ステップで、モデルに追加、または削除する変数をユーザーが選択します。
  • 「確率」:モデルに変数を追加または削除するための基準も制御することができます。
    • 「加える」:α 値が指定値未満の場合、変数をモデルに追加します。0 ~ 1 の範囲で値を入力します (例:0.025)。
    • 「取り除く」:α 値が指定値より大きい場合、変数をモデルから削除します。0 ~ 1 の範囲で値を入力します(例:0.025)。
    • 「最大ステップ」:ステップワイズ推定で実行する最大のステップ数を定義することができます。
    • 「強制」:モデルのリストの最初から n 個の変数を強制的に式に残します。 n は入力した値です。 デフォルト値は、Cox を除くすべてのモデルに対しては 0 ですが、Cox の場合のみ 1 になります。

テーブルとグラフ

また、「テーブルとグラフ」タブをクリックして、さまざまな出力表および回帰モデルから必要なものを選択することができます。

  • 「モデルタイプ」:使用する回帰モデルをドロップダウンリストで選択します。Cox 回帰、ロジスティック モデル、指数モデル、極値の指数モデル、ワイブル モデル、極値のワイブル モデル、または対数正規モデルを選択することができます。
    表、四分位点、危険、および信頼性は、モデルの共変量がある場合は、その関数として変化することがあります。SYSTAT には、共変量を扱う次の 2 つの方法があります。
    • 「平均 共変量値 条件」:デフォルトでは、生存曲線は、すべての共変量を平均値に設定して評価されます。
    • 「固定 共変量値 条件」:表を作成する共変量に固定値を指定することができます。共変量を選択し、固定値を「値」フィールドに入力して「追加」をクリックします。共変量の固定値が、「固定値の設定」リストに表示されます。
  • 「テーブル タイプ」:ドロップダウンリストから、表示する表の種類を選択します。
    • 「生存分析(K-M)」:生存分析(K-M)は単純なノンパラメトリック推定量で、生命表と推定された生存曲線のグラフを作成します。
    • 「生命保険数理」:観測期間を時間の区間に分割します。各区間で、故障の観測数が記録されます。
    • 「生命保険数理ハザード」:標準の生命保険数理生存曲線ではなく、ハザード関数の表を要求します。
    • 「条件 生命」:標準の生命保険数理生存曲線ではなく、条件付き生存表を要求します。この表には、ある区間の生存確率が表示されます。
    • 「パラメトリック 四分位」:直前に推定したパラメトリックモデルに基づく、四分位点とクイック グラフ用の近似の信頼区間を要求します。
    • 「パラメトリック 信頼」:直前に推定したパラメトリックモデルに基づく、信頼性の信頼区間とクイック グラフグラフを要求します。
    • 「パラメトリック 危険」:直前に推定したパラメトリックモデルに基づいて、指定時刻におけるハザード関数の値について、クイック グラフと近似の信頼区間を要求します。
      さらに、次のオプションを指定することができます。
    • 「K-M 確率を表示」:対応するカプラン マイヤーの確率を生命表に表示します。
  • さらに、次のオプションを指定することができます。
    • 「対数時間」:x 軸を時間の対数 log(time) で表すことができます。
    • 「最大時間」:信頼性、ハザード、および生命保険数理表では、グラフの最大時間の限界を指定することができます。これは、対数時間の軸を選択している場合でも、常に、時間として表されます。
    • 「ビンの数」:信頼性、危険、および生命保険数理表では、グラフの時間軸、または対数時間軸の長さを入力します。指定がない場合は、10 個のビンが使用されます。
    • 「生存関数」:y 軸に生存関数をプロットします。
    • 「累積ハザード」:y 軸に、負の生存関数の対数をプロットします。
    • 「対数累積ハザード」:y 軸に、負の生存関数の対数の対数 (log(-log(survivor))) をプロットします。

時間依存性共変量

時間依存性共変量を指定するには、「生存分析」ダイアログ ボックスの「時間依存性共変量」タブをクリックします。

時間変化する共変量のセット名を定義し、作成、編集、または削除を行うことができます。

  • 「パラメータ」:新しい時間依存の共変量を設定するには、「挿入」ボタンをクリックします。 「式」の列で、この共変量の定義を行います。既存の変数を使用して、異なる種類の関数を選択することができます。必要に応じてパラメータの関数をいくつでも指定することができます。
    • 「パラメータ」の列で、挿入した共変量を表す関数を定義する必要があります。「OK」をクリックすると、SYSTAT によって時間依存性共変量が正しく定義されているかどうかがチェックされます。 名前だけで変数が割り当てられていない場合は、その時間依存性共変量は無視されます。 共変量を削除するには、その共変量の行を選択して「削除」をクリックします。 時間依存性共変量が複数存在する場合は、目的の行を選択して「上へ移動」ボタンまたは「下へ移動」ボタンをクリックすることにより、並べ替えを行うことができます。

コマンドの使い方

USE filename でデータファイルを選択し、次のコマンドを入力します。

SURVIVAL
MODEL timevar = covarlist | tdcovarlist /,
CENSOR=var LOWER=var STRATA=var
FUNPAR tdcovar=expression
(There is one FUNPAR statement for each time-dependent covariate)
ESTIMATE / method , START=d,d,d ... , TOLERANCE=d ,
CONVERGE=d

ステップワイズのモデル当てはめは、START、STEP と、ESTIMATE の代わりに STOP のコマンドを使用することにより行われます。

START / method , BACKWARD FORWARD ENTER=p REMOVE=p,
FORCE=n , MAXSTEP=n TOLERANCE=d CONVERGE=d
STEP var or + or n or / AUTO
STOP

METHOD は次のいずれかです。

COX LGST EXP EEXP
WB EWB LNOR  

最後に、モデルの推定後に表とグラフを作成するいくつかのコマンドがあります。

LTAB / TLOG covar=d,covar=d CHAZ LCHAZ COMP
ACT d,n / TLOG LIFE CONDITIONAL HAZARD
QNTL / TLOG
RELIABILITY d,n / TLOG
HAZARD d,n / TLOG

 


使用時の検討事項

データの種類SURVIVAL は直交データを使用して、打ち切りの種類による、3 つの種類のデータ構成を認識します。

  • データが厳密な故障 (exact failure)、または右側打ち切り。
  • 区間打ち切りと右側打ち切りのデータの区間は重なり合わず、右側打ち切りは区間の上限で発生し、厳密な故障 (exact failure) はありません。
  • それ以外のすべてのデータの種類。特に、区間が重なり合う区間打ち切りデータや、区間打ち切りと厳密な故障 (exact failure) の混在データ。

SURVIVAL はデータを自動的に分類します。データの種類により、実行できる分析の種類が決まります。フルのパラメトリックモデルは、どの種類のデータでも推定できますが、Cox の比率ハザードモデルは、上記の最初のデータの種類にだけ当てはめることができ、3 番目のデータの種類では、K-M 推定量は Turnbull(1976 年の論文)の一般化 K-M 推定量に置き換えられます。重なり合う区間を調べるときに、SURVIVAL は共有する終点が重なり合っているとは見なしません。

変数を分類する CATEGORY コマンドは、層別化でだけ動作します。カテゴリの共変量がある場合は、SURVIVAL を使用する前に、SYSTAT の CODE コマンドで再コード化します。

  • プリントオプション:PRINT=LONG を指定すると、出力にパラメータの共分散マトリクスが追加されます。
  • クイック グラフ:SURVIVAL が作成するクイック グラフには、カプランマイヤーの曲線と、パラメトリックモデルの生存関数が示されます。
  • ファイルの保存:SURVIVAL のほぼすべてのコマンドで、選択した出力を SYSTAT のデータファイルに保存することができます。表やグラフを作成するコマンドの前に SAVE コマンドを指定することができます。これは特に、SURVIVAL で現在サポートされていない別の種類の分析を行う場合に便利です。
  • グループ化:SURVIVAL ではグループごとの分析はできません。
  • ケースの度数:FREQ=variable は、FREQ 変数の値だけケース数を増加します。余分なメモリは使用しません。
  • ケースの重み:SURVIVAL では、WEIGHT は使用できません。

例:

  1. 生命表:カプランマイヤーの推定量
  2. 生命保険数理(生命表)
  3. 層別化カプランマイヤー推定
  4. Turnbull の推定:区間打ち切りされたデータの K-M
  5. Cox の回帰
  6. 層別化された Cox の回帰
  7. ステップワイズ回帰
  8. フルパラメトリック分析用の Weibull のモデル

計算

アルゴリズム

計算ルーチンの初期値は、モデルが指定されると必ず自動的に計算されます。SURVIVAL では、初期値は共変量のない加速寿命モデルに基づく線形回帰から得られます。モデルは次の式で表されます。

ln (t) = μ + σw

この式は、対数の故障時間を、定数とパラメトリック誤差の合計として指定します。この式を、p で示される、時刻 t までの故障確率の項について書き換えます。

ln (t) = μ + σFw-1

F は、Weibull 分布、対数正規分布、または対数ロジスティック分布の CDF です。定数と、各時刻の p のカプランマイヤー推定値の適切な変換に対して、観測された故障時間を線形回帰すると、μ と σ の開始値が得られます。Weibull モデルの WB 形式には、 a = eμと δ = 1/σ を使用します。

欠損値

SURVIVAL は、MODEL コマンドにリストされた各特殊変数とすべての共変量について、有効なデータを持つケースだけを分析します。あるケースについて、変数のいずれかでも欠けている場合、そのレコードは入力されません。したがって、共変量の一部について欠損値を持つデータを分析し、かつ各分析のケース数を最大にする場合は、CORR 手順を使用して、EM アルゴリズムで欠損値を推定し、その値を代入してデータを保存します。

パラメータ

SURVIVAL では、演算と結果の解釈に便利なように、加速寿命パラメータ化を使用しています。モデルは挙動がよく短時間で収束し、共変量の加速寿命の概念は直観的です。一部の参考文献やプログラムでは、一般的に Weibull モデルと指数モデルについて、別のパラメータ化を使用しています。比較を容易にするために、SURVIVAL の出力には、他のパラメータ化と一致するスケールパラメータおよび位置パラメータの変換が出力されます。オプションの WB コマンドと EXP コマンドでは、比例ハザード パラメータ表示が使用されます。形状や位置のパラメータには差があり、共分散係数が同一 (または符号以外が同一) であることに気が付くと、パラメータ化の差が気になるかもしれません。これは心配する必要はありません。数学的な観点からは、一部のパラメータの変換を除いて、結果のセットは同一です。

センタリング

SURVIVAL のデフォルトは、センタリングが行われない入力データです。センタリングする場合、これは特に WB モデルの推定では推奨される方法ですが、位置パラメータ ( _B(2)_ ) が変化することがあります。これは、データの一部をセンタリングした場合の重回帰で見られる切片の変化と似ています。ここでも、変化は重要ではありません。

対数尤度

SURVIVAL と参考文献の結果とのもっとも一般的な違いは、収束の対数尤度で報告されることです。Kalbfleisch と Prentice (1980 年の論文) などの著者は、対数尤度の項を取り除き、定数、またはデータの関数だけ (つまり、未知のパラメータの関数ではない) で表記することを好みます。したがって、Weibull モデルでは、打ち切りのない各ケースの尤度の寄与から ln (t) の項が取り除かれています。これは、パラメータベクトルの最尤度の解には影響しませんが、SURVIVAL がレポートする対数尤度よりは非常に小さくなります。たとえば、Kalbfleisch と Prentice (1980 年の論文) は、その中の表 1.2 の対数尤度を -22.952 と報告しています。一方、SURVIVAL では -144.345 とレポートされます。ただし、係数と標準誤差は、両方の正規化で同一です。対数ロジスティックモデルと対数正規モデルでも、同様の相違があります。これらすべての相違は無害であり、異なる正規化の結果です。結果の実際の差を示すものではありません。

反復

SURVIVAL の最尤度の手順は反復的です。基本的な反復は、パラメータベクトルに対する対数尤度の勾配の特定、パラメータ変化ベクトルの計算、および更新されたパラメータベクトルに基づく対数尤度の評価で構成されます。新しい対数尤度が直前の反復の値よりも大きい場合は、その反復が完了したと見なされ、新しい反復が開始されます。それ以外の場合は、ステップ分割が開始されます。収束するまで、SURVIVAL は反復を繰り返します。

パラメータ変化ベクトルのあるメトリックが非常に大きい場合、負の対数尤度を大きくするステップ分割が必要です。この変化ベクトルが単純に半分にされ、対数尤度が再評価されます。この対数尤度が改善された場合は、この反復が完了したと見なされ、新しい反復が開始されます。それ以外の場合は、さらにステップ分割が行われます。

このプロセスで、完全な反復回数の合計または 1 回の反復のステップの分割が固定 (内部) の制限値以上になった場合は、推定値の計算は停止され、反復回数の制限値に達したとのメッセージに続けて、この時点での各パラメータの値や対数尤度などが表示されます。

反復限界は通常、WB や EXP など、収束に時間が掛かるモデルについてだけ問題になります。一方、パラメータ推定値が最終的な値に近づき、収束基準がほぼ満たされると、SURVIVAL では対数尤度の改善が困難なことがあります。改善の余地が少ししかないので、反復で対数尤度を改善するために、順次一層小さいステップが必要になります。反復 i+1 で最適な値に非常に近い対数尤度が得られ、一方全体的な収束基準が満たされていない場合、改善するためには反復 で多くのステップ分割が必要になり、ステップ分割の限界に達することがあります。これは問題ではありません。出力されたパラメータが収束基準を満たしていない場合でも、最適値に近い可能性が高くなっています。ここでは、収束基準の賢明な制御が重要です。

特異なヘシアン

SURVIVAL は共変量間に厳密な線形依存があるモデルや、定数の共変量を持つモデルは推定しません。いずれの場合もヘシアン (2 次導関数のマトリクス) は特異となり、その効果のメッセージが出力されます。共変量の相互依存性の問題は、すべてのモデル (パラメトリックと比例ハザード) で共通です。層別比例ハザードモデルには、また別の水準の複雑さがあります。共変量の 1 つがある層内で定数である場合、特異なヘシアンが得られることがあります。

生存モデル

表記 F(t) を使用して、負でない連続確率変数 T の CDF を表します。SURVIVAL ではすべての故障時刻が厳密に正である必要があります (つまり、0 の故障時刻は使用できません)。生存関数は次の式で表されます。

S(t) = 1- F(t) = Prob(T > t)

密度関数は、次の式で表されます。

f(t) = dF(t) / (dt)

ハザード関数は、次の式で表されます。

h(t) = -d[lnS(t)] / dt = f(t) / S(t)

t の値がまったく観測されず、実際の線の区間に制限される場合、打ち切りが発生します。一般的に、故障時刻が tuti 間にあることだけが分かっている場合、つまり、故障時刻が次の式で表される場合、観測は区間打ち切りされます。

ti < t < tu

次の式の場合、打ち切りは「右側打ち切り」と呼ばれます。

ti < t <

一部の文献では、ti = 0 かつ tu が有限値の場合、打ち切りは「左側打ち切り」と呼ばれます。ただし、SURVIVAL では、一般的な区間打ち切りと区別しません。

比例ハザードモデル

Cox の比例ハザードモデルは、次の式で表すことができます。

h(t, z, β) = h0(t)exp(z'β)

h0(t) は、ノンパラメトリックベースラインハザードです。そして、生存関数は、次の式で表されます。

S(t, z, β) = S0(t)q

q = exp(z'β) です。SURVIVAL では、各層 i で独自のベースラインハザード h0i(t) を持つことができます。

Cox モデルは、ベースラインハザード h0(t) を含まない偏尤度を最大にすることにより、推定されます。同ランクの故障時刻には、Breslow の一般化 Cox 尤度を使用します。i 番目の層について順番に並べられた故障時刻を t(1i), ... tmi で表すと、次の式になります。

mi は、i 番目の層の故障数、d(ji) は、時刻 t(ji)i 番目の層の故障数、S(ji)d(ji) の各観測値についての共変量ベクトルの合計ベクトル、Rtji は故障時刻 t(ji) でのリスクセットです。同ランクの故障がない場合は、この公式は Cox の元の尤度に縮小します。

層のベースラインハザードの復旧は、Prentice と Kalbfleisch の論文 (1979 年) に従います。次のように定義します。

共分散ベクトル z = 0 のベースラインハザードは、次の式で表されます。

同ランクの故障時刻では、次の式で表されます。

ln(-ln(survivor)) のプロットと四分位点プロット

log(-log(survivor)) の式を次のように書くことができます。

ln (-ln (S (t, z, β) ) ) = ln (-ln ( S0 (t) ) ) + z'β

この式は共変量ベクトル z の異なる値について、曲線が加法定数 z'β の分だけ移動することを示しています。ベースライン曲線 ln (-ln ( S0 (t) ) ) は線形である必要はありませんが、比例ハザードの前提を満たす異なる層の曲線は、相似になります。

Weibull モデルでは、ベースラインハザードは次の式として書くことができます。

S(t) = e-tδ

したがって

ln (-ln(S(t))) = δln(t)

この式は、 log(t) に対して直線としてプロットされます。

収束とスコア検定

収束基準は、反復間の尤度の相対増加に基づきます。

[L(i) - L(i-1)] / L(i) < converge

収束すると、 L(i)i 回目の反復の対数尤度の値になります。

対数尤度の相対変化は、1 次導関数と Newton-Raphson 法のいずれを検索プログラムで使用するかを決定するためにも使用されます。デフォルトでは、相対増加量がユーザー定義のしきい値を超えると、1 次導関数だけが計算され、勾配ベクトルの外積の合計が 2 次導関数のマトリクスの近似として使用されます(Berndt et al., 1974)。しきい値未満の場合は、Newton-Raphson 法が使用されます。

スコア検定 (Rao の 1977 年の論文、Engel の 1984 年の論文)は、Cox モデルのパラメータベクトル全体が 0 であるという仮説の Lagrange 乗数 (LM) 検定です。統計量は次の式で計算されます。

S = U(δ)'I(δ)-1U(δ)

U(δ) はパラメータベクトル δ で評価されるスコア(勾配)ベクトル、I(δ) も、δ で評価される情報マトリクスの推定値です。β = δ の帰無仮説では、S は、β の要素数の自由度を持つカイ 2 乗変量として漸近的に分布します。SURVIVAL では、スコア検定は、β の開始値に等しい δ について計算されます。通常、これらの値は Cox モデルでは 0 ですが、START オプションにより置き換えられることがあります。

ステップワイズ回帰

ステップワイズアルゴリズムは Peduzzi et al. (1980) の提案に従い、制限がない場合、後方ステップワイズ法の検定から開始します。変数を削除する基準は、t 統計量、厳密には、推定標準誤差の係数比として計算される漸近正規統計量に基づいています。

前方ステップは、モデル内に現在含まれていない潜在共変量の係数が 0 であるという仮説のスコア検定に基づいています。現在モデルに p 個の共変量がある場合、(p + 1) 番目の共変量を追加するかどうかを検定するためには、帰無仮説の情報マトリクス I とスコアベクトル U を評価する必要があります。β0 を p 個のパラメータの対数尤度を最大にする現在のパラメータベクトル、スコアベクトルの分割を U = (U1, U2) と書くと、スコア統計量は次の式で表されます。

U (β0, 0)'I(β0, 0)-1U(β0, 0) = U2'I22U2

I22 は分割された I の逆マトリクスです。統計量は、潜在共変量のセットと合わせて、検定に拡張される可能性がありますが、現在のバージョンの SURVIVAL では、単一共変量だけについて実装されています。得られたスカラー値は、1 自由度の漸近的なカイ 2 乗共変量で、平方根が標準正規として扱われます。

四分位点、ハザード、および信頼性の分散

確率変数の分布の p 番目の四分位点は、 の t の値です。加速寿命モデルでは、次の式のようになります。

ln(t) = μ + β'z + σw

そして、p の値について、ln(t) のポイント推定値は、 次の式から計算されます。

ln(t) = μ + β'z + σF-1(w)

F-1 は、使用しているモデルにより、極値、正規分布、またはロジスティック分布の逆関数です。ln(t) の分散は、推定パラメータが、最尤法の解で平均値と共分散マトリクスが与えられる多変量正規分布であるという前提から得られます。信頼区間は ln(t) の項について計算され、次に時間尺度に変更されます。

信頼性の信頼区間は、パラメータの推定パラメータについての 1 次の Taylor 級数に基づく漸近近似から計算されます。これは、「δ 法」と呼ばれることもあります(Rao の 1977 年の論文)。SURVIVAL では、信頼区間を対数オッズ比 ln(p / (1-p)) について計算します。この理由は、この数量は範囲の制限がなく、パラメータの線形関数に一層近くなるからです。その後、対数オッズの信頼区間が、確率の尺度に変換されます。


参考文献

  • Allison, P. (1984). Event history analysis. Beverly Hills, Calif.: Sage Publications.
  • Anderson, J. A. and Senthilselvan, A. (1980). Smooth estimates for the hazard function. Journal of the Royal Statistical Society, Series B, 42, 322-327.
  • Barlow, R. E. and Proschan, F. (1965). Mathematical theory of reliability. New York: John Wiley & Sons.
  • Berndt, E. K., Hall, B., Hall, R. E., and Hausman, J. A. (1974). Estimation and inference in non-linear structural models. Annals of Economic and Social Measurement, 3, 653-665.
  • Breslow, N. (1970). A generalized Kruskal-Wallis test for comparing K samples subject to unequal patterns of censorship. Biometrika, 57, 579-594.
  • Breslow, N. (1974). Covariance analysis of censored survival data. Biometrics, 30, 89-99.
  • Cox, D. R. (1972). Regression models and life tables. Journal of the Royal Statistical Society, Series B, 34, 187-220.
  • Cox, D. R. (1975). Partial likelihood. Biometrika, 62, 269-276.
  • Cox, D. R. and Oakes, D. (1984). Analysis of survival data. New York: Chapman and Hall.
  • Cox, D. R. and Snell, E. J. (1968). A general definition of residuals. Journal of the Royal Statistical Society, Series B, 30, 248-275.
  • Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39, 1-38.
  • Elandt-Johnson, R. C. and Johnson, N. L. (1980). Survival models and data analysis. New York: John Wiley & Sons.
  • Elber, C. and Ridder, G. (1982). True and spurious duration dependence: The identifiability of the proportional hazards model. Review of Economic Studies, 49, 402-411.
  • Engel, R. F. (1984). Wald, likelihood ratio and Lagrange multiplier tests in econometrics. In Z. Griliches and M. Intrilligator (eds.), Handbook of Econometrics. New York: North-Holland.
  • Gehan, E. A. (1965). A generalized Wilcoxon test for comparing arbitrarily singly censored samples. Biometrika, 52, 203-223.
  • Gross A. J. and Clark, V. A. (1975). Survival distributions: Reliability applications in the biomedical sciences. New York: John Wiley & Sons, Inc.
  • Han, A. and Hausman, J. (1986). Semiparametric estimation of duration and competing risks models. Department of Economics, Massachusetts Institute of Technology, Cambridge, Mass.
  • Heckman, J. and Singer, B. (1984). The identifiability of the proportional hazards model. Review of Economic Studies, 51, 321-341.
  • Heckman, J. and Singer, B. (1984). A method for minimizing the impact of distributional assumptions in econometric models for duration data. Econometrica, 52, 271-320.
  • Hocking, R. R. (1983). Developements in linear regression methodology: 1959-82. Technometrics, 25, 219-230.
  • Hougaard, P. (1984). Life table methods for heterogeneous populations: Distributions describing the heterogeneity. Biometrika, 71.
  • Kalbfleisch, J. and Prentice, R. (2002). The statistical analysis of failure time data.Hoboken, N.J.: Wiley-Interscience.
  • Kaplan, E. L. and Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 53, 457-481.
  • Lagakos, S. (1979). General right censoring and its impact on the analysis of survival data. Biometrics, 35, 139-56.
  • Lancaster, T. (1985). Generalized residuals and heterogeneous duration models: With applications to the Weibull model. Journal of Econometrics, 28, 155-169.
  • Lancaster, T. (1988). Econometric analysis of transition data. Cambridge: Cambridge University Press.
  • Lawless, J. F. (2003). Statistical models and methods for lifetime data. Hoboken, N.J.: Wiley-Interscience.
  • Lee, E. T. (1980). Statistical methods for survival data analysis. Belmont, Calif.: Wadsworth.
  • Lee, E.T., Wang, J.W. (2003). Statistical methods for survival data analysis. Hoboken, N.J.: Wiley-Interscience.
  • Mantel, N. and Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective studies of disease. Journal of the National Cancer Institute, 22, 719-748.
  • Manton, K. G., Stallard, E., and Vaupel, J. (1986). Alternative models for the heterogeneity of mortality risks among the aged. Journal of the American Statistical Association, 81, 635-644.
  • Miller, R. (1981). Survival analysis. New York: John Wiley & Sons.
  • Nelson, W. (1978). Life data analysis for units inspected once for failure. IEEE Transactions on Reliability, R-27, 4, 274-279.
  • Nelson, W. (2003) Applied life data analysis. New York: John Wiley & Sons, Inc.
  • Parmar, M. K. B. and Machin, D. (1995). Survival analysis: A practical approach. New York: John Wiley & Sons.
  • Peduzzi, P. N., Hofford, T. R., and Hardy, R. J. (1980). A stepwise variable selection procedure for nonlinear regression models. Biometrics, 36, 511-516.
  • Peto, R. (1973). Experimental survival curves for interval censored data. Applied Statistics, 22, 86-91.
  • Prentice, R. L. and Kalbfleisch, J. D. (1979) Hazard rate models with covariates. Biometrics, 35, 25-39.
  • Preston, D. and Clarkson, D. B. (1983). SURVREG: A program for the interactive analysis of survival regression models. The American Statistician, 37, 174.
  • Rao, C. R. (1977). Linear statistical inference and its applications, 2nd ed. New York: John Wiley & Sons.
  • Steinberg, D. and Monforte, F. (1987). Estimating the effects of job search assistance and training programs on the unemployment durations of displaced workers. In K. Lang and J. Leonard (eds.), Unemployment and the Structure of Labor Markets. London: Basil Blackwell.
  • Tarone, R. E. and Ware, J. (1977). On distribution-free tests for equality of survival distributions. Biometrika, 64, 156-160.
  • Turnbull, B. W. (1976). The empirical distribution function with arbitrarily grouped, censored and truncated data. Journal of the Royal Statistical Society, Series B, 38, 290-295.
  • Vaupel, J. W., Manton, K. G., and Stallard, E. (1979). The impact of heterogeneity in individual frailty on the dynamics of mortality. Demography, 16, 439-454.
  • Wang, M. (1987). Nonparametric estimation of survival distributions with interval censored data. John Hopkins University, Baltimore, Md.
  • White, H. (1982). Maximum likelihood estimation of misspecified models. Econometrica, 50, 1-25.
  • Wu, C. F. J. (1983). On the convergence properties of the EM algorithm. The Annals of Statistics, 11, 95-103.

(* は補助参考文献です)

前のページにもどる