24.2 生存分析のデータフォーマット

生存データは以下の3変数で構成されます:

生存時間 (Survival time) は目的とする事象が発生するまでの時間です。これらは、正の値である必要があります。正でない値はいずれも欠損値とみなされます。生存時間や群データは、ソートする必要はありません。

ステータス変数は、そのデータが故障 (failure) の発生したデータか、打ち切られた (censored) データであるかを定義します。故障と打ち切りには、いずれも複数の名称を使用することができます。

群変数は、個別の生存データセット (および曲線) をそれぞれ定義します。

データをワークシートに配置するには、以下の2つのフォーマットのいずれかを使います:

 

1 生データ

生存データを生データ (Raw data) フォーマットで入力するには、列1に生存時間を入力し、それに対応するステータスを列2に入力します。各群について、これと同じ作業を行います。各群を識別したい場合は、生存時間列の列タイトルにその群の名称を入力することで区別することができます。群タイトルの入力を行った場合は、グラフやレポートにその名称が使用されることになります。

2群の生存分析の生データフォーマットの例

 

上図では、列1と列2が、第1群 (Affected Node) の生存時間とステータス値になります。同じく第2群 (Total Node) は、列3と列4になります。レポートと生存曲線グラフには、生存時間の列タイトルに表示されている各テキスト文字列 (この場合は “Affected Node”, “Total Node”) が使用されることになります。

Important:各群のワークシート列の長さは全て等しくする必要があります。もし等しくない場合は、長さの大きい列のセルは欠損値と見なされることになります。また正でない生存時間はいずれも欠損値とみなされます。また、ステータス変数で、故障の発生 (failure) か打ち切り値 (censored) のいずれかが定義されていない値についても全て欠損値となります。

 

2. インデックス付きデータ

インデックス付きデータは、3列のフォーマットになります。生存時間とステータス変数をあらわす2列に対して、各群の名称をあらわすインデックスを第3の列に配置します。列にその内容をあらわすタイトルを付ける必要はありませんが、ウィザードで列を選択する際に役立ちます。

群、生存時間、ステータスの3列で構成されるインデックス付きデータフォーマットの例

 

上記例では、列1が群に、列2が生存時間、そして、列3がステータス変数となります。

Note:トランスフォームの IndexUnindex では、生存分析で使うデータフォーマットの変換は想定されていません。これらの機能を使うには、生存時間とステータス変数の Index と Unindex を個別に実行したあと、その結果得られた列を再編する必要があります。