生存関数のソースを表示

'''生存関数'''（せいぞんかんすう、survival function）または'''生存時間関数'''とは、被験者、機器、またはその他の対象物が特定の時間を超えて[[生存率曲線|生存]]する確率を与える[[関数 (数学)|関数]]である<ref name="KleinbaumKlein2012">{{Citation
|last1=Kleinbaum
|first1=David G.
|last2=Klein
|first2= Mitchel
|title= Survival analysis: A Self-learning text
|edition=Third
|year=2012
|publisher= Springer
|isbn= 978-1441966452
}}
</ref><ref name="KleinbaumKlein_ja">{{Cite book|和書|title=エモリー大学クラインバウム教授の生存時間解析: 基礎から学べる教科書|url=https://www.worldcat.org/oclc/910541593|publisher=サイエンティスト社|date=2015.3|isbn=978-4-86079-072-1|oclc=910541593|others=David G. Kleinbaum, Mitchel Klein 著, 神田英一郎 , 藤井朋子 訳}}</ref>。

生存関数は、'''生存者関数'''（survivor function）<ref name="TablemanKim2003">{{Citation
|last1= Tableman
|first1= Mara
|last2= Kim
|first2= Jong Sung
|title= Survival Analysis Using S
|edition=First
|year=2003
|publisher= Chapman and Hall/CRC
|isbn= 978-1584884088
}}
</ref>または'''信頼性関数'''（reliability function）<ref name="Ebeling2010">{{Citation
|last1= Ebeling
|first1= Charles
|title= An Introduction to Reliability and Maintainability Engineering
|edition=Second
|year=2010
|publisher= Waveland Press
|isbn= 978-1577666257
}}
</ref>としても知られる。

信頼性関数という用語は、[[工学]]において一般的であり、生存関数という用語は、人間の死亡率を含むより広範囲のアプリケーションで用いられる。生存関数の別の名前は、相補累積分布関数（complementary cumulative distribution function、CCDF）である。
== 定義 ==

''T'' を区間 [0,∞) 上の[[累積分布関数]] ''F''(''t'') を持つ連続確率変数とする。その生存関数（または信頼性関数）は次のとおりである。

:<math>S(t) = P(\{T > t\}) = \int_t^{\infty} f(u)\,du = 1-F(t).</math>

== 生存関数の例 ==
下のグラフは、仮想的な生存関数の例である。X軸は時間、Y軸は被験者の生存率である。このグラフは、被験者が時間 ''t'' を超えて生存する確率を示す。

[[File:Four survival functions.svg|600px|Four survival functions]]

たとえば、生存関数1（survival function 1）の場合、''t'' = 2ヶ月 より長く生存する確率は 0.37 である。つまり、被験者の 37% が 2か月 以上生存する。

[[File:Survival function 1.svg|400px|Survival function 1]]

生存関数2の場合、''t'' = 2ヶ月 より長く生存する確率は 0.97 である。つまり、被験者の 97% が 2か月 以上生存する。

[[File:Survival function 2.svg|400px|Survival function 2]]

生存期間[[中央値]]（median survival）は、生存関数から求めることができる。たとえば、生存関数2の場合、被験者の 50% が 3.72か月 生存する。したがって、生存期間中央値は 3.72ヶ月 となる。

[[File:Survival function 2 median survival.svg|400px|Survival function median survival]]

場合によっては、生存率中央値がグラフから判断できないこともある。たとえば、生存関数4では、50% 以上の被験者が10ヶ月の観察期間よりも長く生存する。

[[File:Median survival greater than 10 months.svg|400px|Median survival greater than 10 months]]

生存関数は、生存データを記述および表示するためのいくつかの方法の1つである。データを表示するもう1つの有用な方法は、被験者の生存期間の分布を示すグラフである。Olkinは著書<ref name="OlkinGleserDerman1994">{{Citation
|last1=Olkin
|first1=Ingram
|last2=Gleser
|first2= Leon
|last3=Derman
|first3= Cyrus
|title= Probability Models and Applications
|edition=Second	
|year=1994
|publisher= Macmillan
|isbn= 0-02-389220-X
}}
</ref>（p.426）で、生存データの例として次のように述べている。空調設備の連続故障の間の時間数を記録した。連続した故障の間の時間は、1, 3, 5, 7, 11, 11, 11, 12, 14, 14, 14, 16, 16, 20, 21, 23, 42, 47, 52, 62, 71, 71, 87, 90, 95, 120, 120, 225, 246, 261 時間である。平均故障間隔は 59.6 である。この平均値は、データに理論的な曲線を当てはめるために使用される。次の図は、故障間隔の分布を示している。グラフの下にある青い目盛りは、連続した故障の間の実際の時間である。

[[File:Distribution of AC failure times.svg|400px|Distribution of AC failure times]]

この故障時間の分布に、指数分布を表す曲線を重ねて示している。この例では、[[指数分布]]が故障時間の分布を近似している。指数曲線は、実際の故障時間に適合した理論上の分布である。この指数曲線は、λ（ラムダ）= 1/(平均故障間隔) = 1/59.6 = 0.0168 というパラメータで指定される。故障時間の分布は、時間が任意の正の値を取ることができる場合、[[確率密度関数]]（probability density function、PDF）と呼ばれる。方程式では、PDF を ''f''(''t'') と表記する。時間が離散的な値（1日、2日、など）しか取れない場合、故障時間の分布は[[確率質量関数]]（probability mass function、PMF）と呼ばれる。ほとんどの生存分析法は、時間が任意の正の値をとると仮定し、''f''(''t'') を PDF としている。観測された空調設備の故障の間の時間を指数関数で近似すると、指数曲線から空調設備の故障時間の確率密度関数 ''f''(''t'') が得られる。

生存データを表示するもう一つの有用な方法は、各時点までの累積故障数を示すグラフである。これらのデータは、各時点までの故障の累積数または累積故障率のいずれかで表示される。下のグラフは、空調設備の各時点での故障の累積確率（または割合）を示している。黒色の階段線は、累積故障率を示す。各段について、グラフの下部に、観測された故障時間を示す青色のマークがある。滑らかな赤線は、観測データに適合した指数曲線を表している。

[[File:CDF for AC failures.svg|400px|CDF for AC failures]]

各時点までの累積故障率のグラフを[[累積分布関数]]（cumulative distribution function、CDF）と呼ぶ。生存分析では、累積分布関数は、生存期間が特定の時間 ''t'' 以下になる確率を示す。

''T'' を生存期間とし、任意の正の数とする。特定の時間は小文字の ''t'' で示す。''T'' の累積分布関数は次の関数で表される。
:<math>F(t) = \operatorname{P}(T\leq t)</math>

ここで、右辺は確率変数 ''T'' が ''t'' 以下になる[[確率]]を表す。時間が任意の正の値を取ることができる場合、累積分布関数 ''F''(''t'') は、確率密度関数 ''f''(''t'') の積分である。

空調設備の例では、データに適合する指数曲線を用いて推定した場合、以下の CDF のグラフから、故障までの時間が100時間以下になる確率が 0.81 であることがわかる。

[[File:AC Time to failure LT 100 hours.svg|400px|AC Time to failure LT 100 hours]]

故障時間が100時間以下である確率をグラフ化する代わりに、故障時間が100時間を超える確率をグラフ化することもできる。確率の合計は 1 になる必要があるため、故障時間が100時間を超える確率は、1 から故障時間が100時間以下である確率を引いたものでなければならない。

これにより、

:''P''(故障時間 > 100時間) = 1 - ''P''(故障時間 < 100時間) = 1 - 0.81 = 0.19 となる。

この関係は、次のように、すべての故障時間に一般化される。

:''P''(''T'' > ''t'')  = 1 - ''P''(''T'' < ''t'') = 1 – 累積分布関数

この関係を下のグラフに示す。左側のグラフは、累積分布関数で、''P''(''T'' < ''t'') である。右側のグラフは、''P''(''T'' > ''t'') = 1 - ''P''(''T'' < ''t'') である。右側のグラフは、生存関数 ''S''(''t'') である。''S''(''t'') = 1 – CDF である事実が、生存関数の別名が相補累積分布関数である理由である。

[[File:Survival function is 1 - CDF.svg|400px|Survival function is 1 - CDF]]

== パラメトリックな生存関数 ==
空調設備が好例であるが、生存期間の分布は、指数分布のような関数を使って高い精度で近似できる場合がある。生存分析では、[[指数分布]]、[[ワイブル分布]]、[[ガンマ分布]]、[[正規分布]]、[[対数正規分布]]、対数[[ロジスティック分布]]などといった分布が一般的に使用される<ref name="Ebeling2010" /><ref name="Klein2005">{{Citation
|last1= Klein
|first1= John
|last2= Moeschberger  
|first2= Melvin
|authorlink2=Melvin L. Moeschberger
|title= Survival Analysis: Techniques for Censored and Truncated Data 
|edition= Second
|year=2005
|publisher= Springer
|isbn= 978-0387953991 
}}
</ref>。これらの分布は、パラメータによって定義される。たとえば，正規（ガウス）分布は、2つのパラメータ、つまり[[平均]]と[[標準偏差]]によって定義される。パラメータによって定義される生存関数は、パラメトリックであるという。

上記の4つの生存関数のグラフでは、生存関数の形状が特定の確率分布によって定義されている。生存関数1は指数分布、2はワイブル分布、3は対数ロジスティック分布、4は別のワイブル分布によって定義されている。

=== 指数生存関数 ===
指数型生存分布では、個人の年齢や機器の使用期間とは無関係に、どのタイミングでも死亡（故障）の確率は同じである。これはつまり、指数生存分布が無記憶性を持つということである。対象の生存期間は、その時点での死亡（故障）確率に影響しない。この指数関数は、部品が故障する際に交換されるようなシステムの寿命に適したモデルとなろう<ref name="Mendenhall2007">{{Citation
|last1= Mendenhall
|first1= William
|last2= Terry
|first2= Sincich
|title= Statistics for Engineering and the Sciences
|edition=Fifth
|year=2007
|publisher= Pearson / Prentice Hall
|isbn= 978-0131877061
}}
</ref>。また、短期における生体の生存のモデリングにも使い勝手が良いが、長期にわたる生体の生存のモデリングには適さないであろう<ref name="Brostrom2012">{{Citation
|last1= Brostrom
|first1= Göran
|title= Event History Analysis with R
|edition=First
|year=2012
|publisher= Chapman & Hall/CRC
|isbn= 978-1439831649
}}
</ref>。Efron and Hastie<ref name="EfronHastie2016">{{Citation
|last1= Efron
|first1= Bradley
|last2= Hastie
|first2= Trevor
|title= Computer Age Statistical Inference: Algorithms, Evidence, and Data Science
|edition= First
|year=2016
|publisher= Cambridge University Press
|isbn= 978-1107149892
}}
</ref>（p.134）では、「もし人間の寿命が指数分布に従っていると仮定すると、老人も若者もない。単に、運が良いか悪いかそれだけである」と述べている。

=== ワイブル生存関数 ===
{{Main|ワイブル分布}}
指数型生存関数における重要な仮定とは、危険率（hazard rate）が一定ということである。上記の例では、毎年死亡する男性の割合は10%で一定であり、これは危険率が定数であることを意味する。危険率が定数であるという仮定は、適切でないこともある。たとえば、ほとんどの生物では、死亡のリスクは中年期よりも老年期の方が大きく、つまり危険率は時間とともに増加するということである。また、乳がんのように、5年後に再発するリスクが低くなる疾患もある。これはつまり、危険率が時間とともに減少するということである。[[ワイブル分布]]は、指数分布を拡張して、危険率を定数にできるのはもちろん、増加、または減少するようにすることができる

=== 他のパラメトリック生存関数 ===

正規分布、対数正規分布、対数ロジスティックガンマ分布など、特定のデータセットへの適合度が高いパラメトリック生存関数は他にも存在する。個別具体的な応用段階でのパラメトリック分布の選択は、グラフィカルな方法や形式的な適合度検定を用いて行える。これらの分布と検定は、生存分析に関する教科書で説明されている<ref name="KleinbaumKlein2012" /><ref name="KleinbaumKlein_ja" /><ref name="Ebeling2010" />。Lawlessの教科書は、パラメトリック・モデルを幅広くカバーしている<ref name="Lawless2002">{{Citation
|last1= Lawless
|first1= Jerald 
|title= Statistical Models and Methods for Lifetime Data 
|edition=Second
|year=2002
|publisher= Wiley
|isbn= 978-0471372158
}}
</ref>。

パラメトリック生存関数は、観察期間以後の生存関数を推定できることが一つの理由となり、製造業への応用における使用が一般的である。ただし、パラメトリックな関数を適切に使用するには、選択した分布がデータに対してモデルとして良く適合している必要がある。適切な分布が使用できない場合、または臨床試験や実験の前に指定できない場合は、ノンパラメトリックな生存関数が代替手段として有用である。

== ノンパラメトリック生存関数 ==
生存のパラメトリック・モデルは、不可能または望ましくないかもしれない。このような状況で生存関数をモデル化する最も一般的な方法は、ノンパラメトリックな[[カプラン＝マイヤー推定量]]である。

== 特性 ==
* すべての生存関数 <math>S(t)</math> は[[単調減少]]、すなわち、すべての <math>u > t</math> について <math>S(u) \le S(t)</math> である。
** これは[[確率変数]]の特性であり、通常は、死亡率や何らかのシステムの故障に関連する一連の事象を[[時間]]にマッピングする。
* 時刻 <math>t=0</math> は何らかの起源、通常は研究の開始またはあるシステムの運用開始を表している。<math>S(0)</math> は一般的に1であるが、システムが動作直後に故障する確率を表すために、これより少なくすることもできる。
* CDFは{{仮リンク|右連続関数|en|Right-continuous}}なので、生存関数 <math>S(t) = 1-F(t)</math> も右連続である。
* 生存関数は、[[確率密度関数]] <math>f(t)</math> と{{仮リンク|危険率関数|en|Hazard function}} <math>\lambda(t)</math> に関連づけられる。
** <math>f(t) = -S'(t)</math>
** <math>\lambda(t) = -{d\over{dt}}\log S(t)</math>
したがって、<math> S(t)= \exp[ -\int_0^{t} \lambda(t') dt' ] </math> となる。
* 期待生存期間は、 <math>\mathbb{E}(T) = \int_{0}^{\infty}S(t)dt</math> となる。

== 期待生存期間の公式の証明 ==
[[確率変数]] <math>T\in [0,\infty)</math> の期待値は、次のように定義される。

:<math>\mathbb{E}(T)=\int _{0}^{\infty}tf(t)dt</math>

ここで、<math>f(t)</math> は[[確率密度関数]]である。また、<math>f(t)=-S'(t)</math> の関係を用いて、期待値の式を変形できる。

:<math>\mathbb {E} (T)=-\int _{0}^{\infty }tS'(t)dt</math>

これをさらに簡略化するには、[[部分積分]]を用いるとよい。

:<math>-\int _{0}^{\infty }tS'(t)dt=-tS(t){\bigg |}_{0}^{\infty }+\int_{0}^{\infty }S(t)dt</math>

定義により、<math>S(\infty )=0</math> であり、境界項はまったく0に等しいことを意味する。したがって、期待値は単に生存関数の積分であると結論づけることができる。

:<math>\mathbb {E} (T)=\int _{0}^{\infty }S(t)dt</math>

==参照項目==
{{Portal|数学}}
* [[故障率]]
* {{仮リンク|超過頻度|en|Frequency of exceedance}}
* [[カプラン＝マイヤー推定量]]
* [[平均故障間隔]]
* {{仮リンク|滞留時間 (統計学)|en|Residence time (statistics)}}

==脚注==
{{Reflist}}

{{統計学}}

{{DEFAULTSORT:せいそんかんすう}}
[[Category:応用確率論]]
[[Category:生存分析]]
[[Category:数学に関する記事]]