F値 (評価指標)のソースを表示
←
F値 (評価指標)
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
[[ファイル:Precisionrecall.svg|サムネイル|636x636ピクセル|適合率と再現率]] '''F値'''(F尺度とも、{{lang-en-short|F-measure}}、F-score)は、[[二項分類]]の[[統計学|統計]]解析において[[精度 (算術)|精度]]を測る指標の一つである。F値は適合率と再現率から計算される。適合率とは陽性と予測したもののうち(この中には正しく予測できていないものも含まれる)実際に正しく予測できたものの割合で、再現率は全ての陽性のうち実際に陽性であると予測できたものの割合である。適合率は[[陽性的中率]](Positive predict value、PPV)とも、再現率は[[感度 (医学)|感度]] (sensitivity) と呼ばれることもある。 '''F1 Score(F<sub>1</sub>)'''<!-- 適切な訳がないので原表記に戻す -->は適合率と再現率の[[調和平均]]で計算される。より一般的なF値も考えることができて、重み付けF値 (Weighted F-score) は適合率または再現率に何らかの重みをかけた上で調和平均をとって算出する。 F値が取りうる最大値は1.0であり、これは適合率と再現率がともに1.0 (=100%) の場合である。逆にF値がとりうる最小値は0で、このとき適合率と再現率の少なくともいずれかが0である。 == 言葉の由来 == F値 (F Score) という名前は、第4回メッセージ理解会議(MUC-4, 1992)で紹介されたとき、Van Rijsbergen 氏の著書に記載されていた別のF関数にちなんで名付けられたとされている<ref>{{Cite news|last=Sasaki|first=Y.|url=https://www.toyota-ti.ac.jp/Lab/Denshi/COIN/people/yutaka.sasaki/F-measure-YS-26Oct07.pdf|title=The truth of the F-measure}}</ref>。 == 定義 == 従来のF値またはバランスF値('''F<sub>1</sub>Score'''){{訳語疑問点|date=2022年1月}}は、適合率と再現率との[[調和平均]]である。 : <math>F_1 = \frac{2}{\mathrm{recall^{-1}} + \mathrm{precision^{-1}}} = 2 \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{\mathrm{precision} + \mathrm{recall}} = \frac{\mathrm{tp}}{\mathrm{tp} + \frac12 (\mathrm{fp} + \mathrm{fn}) } </math> === <math>F_\beta</math> === F1 Scoreは、実整数係数 <math>\beta</math> を用いてより一般化して定義できる。 ここで β は、適合率と比較して再現率を何倍重視するかを表す係数である<ref>{{Cite book|last=Van Rijsbergen|first=C. J.|url=http://www.dcs.gla.ac.uk/Keith/Preface.html|year=1979|title=Information Retrieval|edition=2nd|publisher=Butterworth-Heinemann}}</ref>。 : <math>F_\beta = (1 + \beta^2) \cdot \frac{\mathrm{precision} \cdot \mathrm{recall}}{(\beta^2 \cdot \mathrm{precision}) + \mathrm{recall}}</math> [[第一種過誤と第二種過誤]]に関しては、これは次のようになる。 : <math>F_\beta = \frac {(1 + \beta^2) \cdot \mathrm{true\ positive} }{(1 + \beta^2) \cdot \mathrm{true\ positive} + \beta^2 \cdot \mathrm{false\ negative} + \mathrm{false\ positive}}\,</math> 。 特に再現率をより重視する目的で β=2、適合率をより重視する目的で β=0.5 としたものがよく使われる。 Van Rijsbergenの有効性尺度に基づいている。 : <math>E = 1 - \left(\frac{\alpha}{p} + \frac{1-\alpha}{r}\right)^{-1}</math>。 <math>F_\beta = 1 - E</math> ただし、<math>\alpha=\frac{1}{1 + \beta^2}</math> === 調和平均としての記述 === : <math>F_1^{-1} = \frac{\mathrm{recall}^{-1} + \mathrm{precision}^{-1}}{2}, \quad F_\beta^{-1} = \frac{\beta^2 \times \mathrm{recall}^{-1} + 1 \times \mathrm{precision}^{-1}}{\beta^2 + 1}</math> == 応用 == F値は、[[情報検索]]の分野で、検索、[[文書分類]]、クエリ分類の性能を測定するためよく使われる。初期の研究では主に F<sub>1</sub> Score に注目していたが、大規模な検索エンジンの普及に伴い、パフォーマンスの目標が適合度 precision や再現率 recall のいずれかに重点を置くようになったため、<math>F_\beta</math> が広く使われるようになった<ref>{{Cite conference|last=X. Li|last2=Y.-Y. Wang|last3=A. Acero|title=Learning query intent from regularized click graphs|date=July 2008|doi=10.1145/1390334.1390393}}</ref>。 F値は[[機械学習]]でも使用される<ref>See, e.g., the evaluation of the .</ref>。しかし、F値は真陰性を考慮しないため、バイナリ分類器の性能を評価するには、マシューズ相関係数、インフォームドネス、コーエンのカッパなどの尺度が好ましいかもしれない<ref>{{Cite arXiv|arxiv=1503.06410|class=cs.IR|last=Powers|first=David M. W|title=What the F-measure doesn't measure}}</ref>。 F値は、[[固有表現抽出]]やテキストセグメンテーションの評価など、自然言語処理の文献<ref name="Derczynski2016">{{Cite conference|first1=L.|last=Derczynski|url=https://www.aclweb.org/anthology/L16-1040|title=Complementarity, F-score, and NLP Evaluation|date=2016}}</ref>で広く使用されている。<!-- 自然言語に限った指標ではないので、もう少し他の分野にも言及している出典があると理想的 --> == 批判 == デビッド・ハンド氏らは、F1 Scoreは精度と再現率を同等に重視していることから批判している。実際には、誤分類の種類が異なれば、コストも異なる。適合率と再現率の相対的な重要性が問題となる<ref>{{Cite journal|last=Hand|first=David|title=A note on using the F-measure for evaluating record linkage algorithms - Dimensions|url=https://app.dimensions.ai/details/publication/pub.1084928040|language=en|accessdate=2018-12-08|DOI=10.1007/s11222-017-9746-6}}</ref>。 Davide Chicco と Giuseppe Jurman によると、F<sub>1</sub> Scoreは、バイナリ評価分類のマシューズ相関係数よりも真実性と情報量が少ないとのこと<ref>{{Cite journal|date=January 2020|title=The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation|journal=BMC Genomics|volume=21|issue=6|pages=6|DOI=10.1186/s12864-019-6413-7|PMID=31898477|PMC=6941312}}</ref>。 David Powersは、F<sub>1</sub> Scoreが真陰性を無視するため、不均衡なクラスでは誤解を招くとを指摘している。 == Fowlkes–Mallows インデックスとの違い == F値は再現率と適合率の[[調和平均]]だが、Fowlkes–Mallows インデックスはそれらの[[幾何平均]]である<ref> {{Cite journal|date=August 2018|title=Classification assessment methods|journal=Applied Computing and Informatics|issue=ahead-of-print|DOI=10.1016/j.aci.2018.08.003}}</ref>。 == 多クラス分類への拡張 == F値は、3つ以上のクラスの分類問題(多クラス分類)の評価にも用いられる。この設定では、最終的なスコアは、ミクロ平均(クラスの頻度によるバイアスがある)またはマクロ平均(すべてのクラスを同等に重要視する)によって得られる。マクロ平均では、2つの異なる計算式が使用される。すなわち、クラスごとの適合率と再現率の平均に基づくF値、ないしクラスごとのF値の平均ある。後者の方がより望ましい特性を示す<ref>{{Cite arXiv|arxiv=1911.03347|class=stat.ML|last=J. Opitz|last2=S. Burst|title=Macro F1 and Macro F1}}</ref>。 == 関連項目 == * [[混同行列]] * [[受信者操作特性|受信者動作特性]] * [[統計学および機械学習の評価指標]] == 脚注 == {{脚注ヘルプ}} === 出典 === {{Reflist}} {{統計学}} {{DEFAULTSORT:えふち}} [[Category:統計学]] [[Category:疫学]] [[Category:機械学習]]
このページで使用されているテンプレート:
テンプレート:Cite arXiv
(
ソースを閲覧
)
テンプレート:Cite book
(
ソースを閲覧
)
テンプレート:Cite conference
(
ソースを閲覧
)
テンプレート:Cite journal
(
ソースを閲覧
)
テンプレート:Cite news
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:Reflist
(
ソースを閲覧
)
テンプレート:統計学
(
ソースを閲覧
)
テンプレート:脚注ヘルプ
(
ソースを閲覧
)
テンプレート:訳語疑問点
(
ソースを閲覧
)
F値 (評価指標)
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報