打ち切り (統計学)のソースを表示
←
打ち切り (統計学)
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
[[統計学]]では、'''打ち切り'''(うちきり、{{Lang-en-short|censoring}})とは、[[測定]]や[[観測]]の[[変数 (数学)|値]]<!-- 英語版 :en:Value (mathematics) を参照 -->が部分的にしかわからない状態のことである。 たとえば、ある薬が[[死亡率]]に与える影響を測定する研究が行われたとする。そのような研究では、ある個人の死亡時の年齢が「少なくとも」75歳(それ以上の場合もある)であることがわかっているかもしれない。そうした状況は、その個人が75歳で研究から退いた場合や、現在75歳で生存している場合に起こりうる。 また、打ち切りは、[[測定器]]の範囲外の値が発生した場合にも起こる。たとえば、浴室の体重計は140kgまでしか測れないかもしれない。その体重計を用いて160kgの個人が体重を測った場合、観察者はその人の体重が少なくとも140kgであることしかわからない。 ある変数の観測された値が部分的にわかっている打ち切りデータの問題は、ある変数の観察値が不明な[[欠測データ]]の問題と関連している。 打ち切りを、関連する考え方である{{仮リンク|切り捨て (統計学)|en|Truncation (statistics)|label=切り捨て}}と混同してはならない。打ち切りでは、観測結果として該当する正確な値を知るか、あるいはその値がある[[区間 (数学)|区間]]内にあることを知ることができる。これに対し、切り捨てでは、観測結果が与えられた範囲外の値になることはなく、したがって範囲外の母集団の値は決して観測されないし、観測されたとしても記録されない。なお統計学では切り捨てと[[丸め]]とは異なる考え方である。 == 種類 == * 左側打ち切り(''left censoring'') - データポイントが特定の値より下にあるが、その量がどの程度かは不明。 * 区間打ち切り(''interval censoring'') - データポイントが2つの値の間に挟まれた区間のどこかにある。 * 右側打ち切り(''right censoring'') - データポイントがある値より上にあるが、その量がどの程度かは不明。 * I型打ち切り(''type I censoring'')は、実験の被験者やアイテムの数が決まっていて、所定の時間で実験を中止する場合に起こる。その時点で残っている被験者は右側打ち切りされる。 * II型打ち切り(''type II censoring'')は、実験の被験者やアイテムの数が決まっていて、所定の数の被験者が故障(例:罹患)したと観測された時点で実験を中止する場合に起こる。その後、被験者は右側打ち切りされる。 * ランダム(または非情報的)打ち切り(''Random'' (or ''non-informative'') ''censoring'')は、各被験者の打ち切り時間が、事象発生時間と統計的に独立していることである。その観測値は、打ち切り時間と事象発生時間との最小値であり、事象発生時間が打ち切り時間よりも長い被験者は右側打ち切りとなる。 区間打ち切りは、ある値を観測するために追跡調査や検査が必要な場合に起こる。左側打ち切りと右側打ち切りは、区間打ち切りの特別な場合で、それぞれ区間の始まりをゼロ、終わりは無限大とする。 左側打ち切りデータを用いた[[推定量|推定方法]]はさまざまであり、すべてのデータセットにすべての推定方法が適用できるとは限らず、また最も信頼できるとは限らない<ref>{{cite journal|last=Helsel|first=D.|year=2010|title=Much Ado About Next to Nothing: Incorporating Nondetects in Science|journal=Annals of Occupational Hygiene|volume=54|issue=3|pages=257–262|doi=10.1093/annhyg/mep092|pmid=20032004|doi-access=free}}</ref>。 時間間隔データについてよくある誤解は、開始時刻が不明な区間を左側打ち切りとして分類することである。このような場合では、「時間間隔」の下限があるので、データは「右側打ち切り」になる(タイムラインとして見たとき、欠落した開始点は既知の間隔の左側にあるにもかかわらず!)。 == 分析 == 打ち切りデータを処理するために、特別な手法が使用されることがある。特定の故障時間を持った試験は、実際の故障として符号化される。打ち切りデータは、打ち切りの種類と、既知の区間または限界値として符号化される。特別なソフトウェアプログラム(多くは[[信頼性工学|信頼性]]指向)は、要約統計量や信頼区間などの[[最尤推定]]を行うことができる。 === 疫学 === 打ち切りデータを含む統計的問題を分析する最初の試みの1つは、1766年、[[ダニエル・ベルヌーイ]]が[[天然痘]]の罹患率と死亡率のデータを分析し、[[ワクチン接種]]の有効性を実証したことである<ref>{{cite journal|last=Bernoulli|first=D.|year=1766|title=Essai d'une nouvelle analyse de la mortalité causée par la petite vérole|journal=Mem. Math. Phy. Acad. Roy. Sci. Paris|postscript=,}} reprinted in Bradley (1971) 21 and Blower (2004)</ref>。打ち切りコストの推定に[[カプラン=マイヤー推定量]]を使った初期の論文がQuesenberryら(1989)によって著されたが<ref>{{cite journal|last1=Quesenberry|first1=C. P., Jr.|last2=Fireman|first2=B.|last3=Hiatt|first3=R. A.|last4=Selby|first4=J. V.|year=1989|title=A survival analysis of hospitalization among patients with acquired immunodeficiency syndrome|journal=[[:en:American Journal of Public Health|American Journal of Public Health]]|volume=79|issue=12|pages=1643–1647|doi=10.2105/AJPH.79.12.1643|pmid=2817192|pmc=1349769|display-authors=1}}</ref>、すべての患者が時間とともに共通の決定論的レート関数でコストを蓄積しない限りこのアプローチは無効であることがLinらによって報告された<ref>{{cite journal|last1=Lin|first1=D. Y.|last2=Feuer|first2=E. J.|last3=Etzioni|first3=R.|last4=Wax|first4=Y.|year=1997|title=Estimating medical costs from incomplete follow-up data|journal=[[:en:Biometrics (journal)|Biometrics]]|volume=53|issue=2|pages=419–434|doi=10.2307/2533947|jstor=2533947|pmid=9192444|display-authors=1}}</ref>。彼らは、Lin推定量として知られる代替の推定手法を提案した<ref>{{cite journal|last1=Wijeysundera|first1=H. C.|last2=Wang|first2=X.|last3=Tomlinson|first3=G.|last4=Ko|first4=D. T.|last5=Krahn|first5=M. D.|year=2012|title=Techniques for estimating health care costs with censored data: an overview for the health services researcher|journal=[[:en:ClinicoEconomics and Outcomes Research|ClinicoEconomics and Outcomes Research]]|volume=4|pages=145–155|doi=10.2147/CEOR.S31552|pmid=22719214|pmc=3377439|display-authors=1}}</ref>。 === 動作寿命試験 === [[ファイル:Censored_Data_Example.svg|右|サムネイル|250x250ピクセル|5回の{{仮リンク|反復 (統計学)|en|Replication (statistics)|label=反復試験}}の結果、4回の故障と1回の中止時間が発生した例。]] [[信頼性工学|信頼性]]試験は、多くの場合、特定の条件下でアイテムに対して試験を行い、故障が発生するまでの時間を測定することから構成される。 * オペレーターの誤り、機器の不具合、検査の異常など、故障が計画されて予期されていても発生しないことがある。その試験結果は、望ましい故障発生までの時間ではなかったが、終了までの時間として用いることができる(また、そうすべきである)。打ち切りデータの使用は意図的ではないが、必要なことである。 * エンジニアが試験計画を作成する際に、ある一定の時間制限または故障回数を超えたら、残りのすべての試験を終了させることがある。これらの中断時間は、右打ち切りデータとして扱われる。その打ち切りデータの使用は意図的なものである。 反復試験のデータの分析には、故障したアイテムの故障までの時間と、故障しなかったアイテムの試験終了までの時間の両方が含まれる(図を参照)。 === 打ち切り回帰 === {{仮リンク|打ち切り回帰|en|Censored regression model}}の初期のモデルである[[計量経済学#トービットモデル (Tobit model)|トービン・モデル]]{{Enlink|en:Tobit model|英語版}}は、1958年に[[ジェームズ・トービン]]によって提案された<ref>{{Cite journal|last=Tobin|first=James|year=1958|title=Estimation of relationships for limited dependent variables|url=http://cowles.yale.edu/sites/default/files/files/pub/d00/d0003-r.pdf|journal=Econometrica|volume=26|issue=1|pages=24–36|doi=10.2307/1907382|jstor=1907382}}</ref>。 === 尤度 === [[尤度関数|尤度]](ゆうど)とは、観測された値の[[確率]]または[[確率密度関数|確率密度]]のことであり、想定されるモデルのパラメータの関数として示される。生存時間 <math>T_1, T_2, ..., T_n</math> に興味があるが、すべての <math>i</math> について <math>T_i</math> を観測していないとしよう。その代わりに、 : <math>T_i</math> が実際に観測されていれば、<math>U_i = T_i</math> 、 <math>\delta_i = 1</math> となる <math>(U_i, \delta_i)</math> を観測し、 : <math>T_i</math> が <math>U_i</math> よりも長いということだけがわかっていれば、<math>U_i < T_i</math> 、 <math>\delta_i = 0</math> となる <math>(U_i, \delta_i)</math> を観測する。 <math>T_i > U_i</math> の場合、<math>U_i</math> は打ち切り時間(''censoring time'')と呼ばれる<ref>{{cite Q|Q98961801}}<!-- Likelihood Construction, Inference for Parametric Survival Distributions -->.</ref>。 打ち切り時間がすべて既知の定数である場合、尤度は、 : <math>L = \prod_{i, \delta_i = 1} f(u_i) \prod_{i, \delta_i=0} S(u_i)</math> となり、ここに、<math>f(u_i)</math> は <math>u_i</math> で評価した確率密度関数、<math>S(u_i)</math> は <math>T_i</math> が <math>u_i</math> より大きくなる確率で、[[生存関数]]と呼ばれる。 これは、死亡率の瞬間的な[[死力]]である[[ハザード関数]]を : <math>\lambda(u) = f(u)/S(u)</math> と定義することで簡略化でき、 : <math>f(u) = \lambda(u)S(u)</math> となる。このとき、 : <math>L = \prod_i \lambda(u_i)^{\delta_i} S(u_i)</math> となる。 [[指数分布]]の場合は、ハザード率 <math>\lambda</math> が一定なので、<math>S(u) = \exp(-\lambda u)</math> となり、さらに単純になる。このとき、 : <math>L(\lambda) = \lambda^k \exp (-\lambda \sum{u_i})</math> となり、ここに <math>k = \sum{\delta_i}</math> である。 これから、<math>\hat{\lambda}</math> を簡単に計算し、<math>\lambda</math> の[[最尤推定|最尤推定値]](MLE)を次のように計算することができる。 : <math>l(\lambda) = \log(L(\lambda)) = k \log(\lambda) - \lambda \sum{u_i}</math> このとき、 : <math>dl / d\lambda = k/\lambda - \sum{u_i}</math> となる。 これを 0 として <math>\lambda</math> を解くと、 : <math>\hat \lambda = k / \sum u_i</math> となる。 同様に、{{仮リンク|平均初回故障間隔|en|Mean time to first failure}}は、 : <math>1 / \hat\lambda = \sum u_i / k</math> となる。 これは、[[指数分布]]の標準MLEとは異なり、打ち切り観測値は分子でのみ考慮される。 == 参照項目 == * {{仮リンク|データ分析|en|Data analysis}} - 有用な情報を発見し、意思決定を支援することを目的とした一連のプロセス * [[検出限界]] * [[代入法 (統計学)]] * [[逆確率重み付け]] * {{仮リンク|サンプリングバイアス|en|Sampling bias}}- 標本が母集団よりも低い(または高い)サンプリング確率を持って集められる偏り * {{仮リンク|飽和演算|en|Saturation arithmetic}} - 加算や乗算などのすべての演算が最小値と最大値の間の固定範囲に制限される算術の一種 * [[生存分析]] * Winsorising{{Enlink|Winsorising|英語版|en}} - 統計データの極端な値を制限することで、もっともらしい外れ値の影響を減らす統計学の変換 * {{仮リンク|打ち切り回帰モデル|en|Censored regression model}} - 従属変数が特定のしきい値より上または下で打ち切られるモデルの一種 == 脚注 == {{reflist}} == 推薦文献 == * Blower, S. (2004), D, Bernoulli's "{{cite web|url=http://www.semel.ucla.edu/sites/all/files/biomedicalmodeling/pdf/Bernoulli&Blower.pdf|title=An attempt at a new analysis of the mortality caused by smallpox and of the advantages of inoculation to prevent it|access-date=2019-06-25|archive-url=https://web.archive.org/web/20170808033709/https://www.semel.ucla.edu/sites/all/files/biomedicalmodeling/pdf/Bernoulli%26Blower.pdf|archive-date=2017-08-08|url-status=dead}} {{small|(146 [[:en:Kibibyte|KiB]])}}", ''Reviews of Medical Virology'', '''14''': 275–288 * {{cite book|last=Bradley|first=L.|year=1971|title=Smallpox Inoculation: An Eighteenth Century Mathematical Controversy|location=Nottingham|isbn=0-902031-23-6}} * {{cite book|title=Methods for Statistical Analysis of Reliability and Life Data|author=Mann, N. R.|author-link=Nancy Mann|location=New York|publisher=Wiley|isbn=047156737X|year=1975|display-authors=etal|url-access=registration|url=https://archive.org/details/methodsforstatis00mann}} * Bagdonavicius, V., Kruopis, J., Nikulin, M.S. (2011),"Non-parametric Tests for Censored Data", London, ISTE/WILEY,{{ISBN2|9781848212893}}. == 外部リンク == * "Engineering Statistics Handbook", NIST/SEMATEK, [http://www.itl.nist.gov/div898/handbook/] {{Statistics}} [[Category:統計データ型]] [[Category:生存分析]] [[Category:信頼性工学]] {{DEFAULTSORT:うちきり}}
このページで使用されているテンプレート:
テンプレート:Cite Q
(
ソースを閲覧
)
テンプレート:Cite book
(
ソースを閲覧
)
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Cite web
(
ソースを閲覧
)
テンプレート:Enlink
(
ソースを閲覧
)
テンプレート:ISBN2
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
テンプレート:Small
(
ソースを閲覧
)
テンプレート:Statistics
(
ソースを閲覧
)
テンプレート:仮リンク
(
ソースを閲覧
)
打ち切り (統計学)
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報