情報抽出のソースを表示

{{出典の明記|date=2022年12月24日 (土) 10:42 (UTC)}}
{{Expand English|Information extraction|date=July 2022}}
'''情報抽出''' (じょうほうちゅうしゅつ、{{lang-en|Information Extraction}}、略称: IE) は[[非構造化データ|非構造化]]文書と機械が読み取れる (machine-readableな) 半構造化文書の両方またはいずれから自動的に構造化データを抽出するタスクである。

多くの場合、この作業は人間の言葉で書かれた文書を[[自然言語処理]] ({{lang-en-short|Natural Language Processing}}、略: NLP) の手法を用いて処理することを指す。画像・音楽・動画の自動アノテーションやコンテンツ抽出のような、近年のマルチメディア文書の処理もまた情報抽出として捉えられる。

その問題の難しさから、IEに対する現在のアプローチは狭く制限されたドメインに焦点を当てている。例として、ニュースサービスの企業合併についての報道からの情報抽出があり、次のようなフォーマルな関係による情報
:<math>\mathrm{MergerBetween}(company_1, company_2, date)</math>,
を次のようなニュース文
:''"Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp."''
から抜き出す。

IEの広い目標は、蓄積された非構造化データのうえで処理を行えるようにすることである。より具体的な目標は、入力データの論理的内容に基づいて推論を行う[[論理的推論]]を可能にすることである。

== 関連項目 ==
* {{仮リンク|知識抽出|en|Knowledge extraction}}
* [[固有表現抽出]]
* [[テキストマイニング]]
* [[ウェブスクレイピング]]
* [[エンタープライズサーチ]]

{{computer-stub}}

== こちらも参照 ==

* [[GPT (言語モデル)|Generative Pre-trained Transformer]] (GPT) は、テキスト生成機能で知られる最先端の言語モデルです。
* [[BERT (言語モデル)|Bidirectional Encoder Representations from Transformers]] (BERT) は、自然言語理解タスク用に設計されたトランスフォーマー ベースのモデルです。
* [[LLaMA]]（Large Language Model Meta AI) は、さまざまなアプリケーション向けにテキストとビジョンを組み合わせた革新的な AI モデルです。
* [[spaCy]] は、トークン化や固有表現認識などのタスクに使用される、人気のあるオープンソースの自然言語処理ライブラリです。
{{DEFAULTSORT:しようほうちゆうしゆつ}}
[[Category:検索]]
[[Category:自然言語処理]]