情報抽出のソースを表示
←
情報抽出
ナビゲーションに移動
検索に移動
あなたには「このページの編集」を行う権限がありません。理由は以下の通りです:
この操作は、次のグループに属する利用者のみが実行できます:
登録利用者
。
このページのソースの閲覧やコピーができます。
{{出典の明記|date=2022年12月24日 (土) 10:42 (UTC)}} {{Expand English|Information extraction|date=July 2022}} '''情報抽出''' (じょうほうちゅうしゅつ、{{lang-en|Information Extraction}}、略称: IE) は[[非構造化データ|非構造化]]文書と機械が読み取れる (machine-readableな) 半構造化文書の両方またはいずれから自動的に構造化データを抽出するタスクである。 多くの場合、この作業は人間の言葉で書かれた文書を[[自然言語処理]] ({{lang-en-short|Natural Language Processing}}、略: NLP) の手法を用いて処理することを指す。画像・音楽・動画の自動アノテーションやコンテンツ抽出のような、近年のマルチメディア文書の処理もまた情報抽出として捉えられる。 その問題の難しさから、IEに対する現在のアプローチは狭く制限されたドメインに焦点を当てている。例として、ニュースサービスの企業合併についての報道からの情報抽出があり、次のようなフォーマルな関係による情報 :<math>\mathrm{MergerBetween}(company_1, company_2, date)</math>, を次のようなニュース文 :''"Yesterday, New York based Foo Inc. announced their acquisition of Bar Corp."'' から抜き出す。 IEの広い目標は、蓄積された非構造化データのうえで処理を行えるようにすることである。より具体的な目標は、入力データの論理的内容に基づいて推論を行う[[論理的推論]]を可能にすることである。 == 関連項目 == * {{仮リンク|知識抽出|en|Knowledge extraction}} * [[固有表現抽出]] * [[テキストマイニング]] * [[ウェブスクレイピング]] * [[エンタープライズサーチ]] {{computer-stub}} == こちらも参照 == * [[GPT (言語モデル)|Generative Pre-trained Transformer]] (GPT) は、テキスト生成機能で知られる最先端の言語モデルです。 * [[BERT (言語モデル)|Bidirectional Encoder Representations from Transformers]] (BERT) は、自然言語理解タスク用に設計されたトランスフォーマー ベースのモデルです。 * [[LLaMA]](Large Language Model Meta AI) は、さまざまなアプリケーション向けにテキストとビジョンを組み合わせた革新的な AI モデルです。 * [[spaCy]] は、トークン化や固有表現認識などのタスクに使用される、人気のあるオープンソースの自然言語処理ライブラリです。 {{DEFAULTSORT:しようほうちゆうしゆつ}} [[Category:検索]] [[Category:自然言語処理]]
このページで使用されているテンプレート:
テンプレート:Computer-stub
(
ソースを閲覧
)
テンプレート:Expand English
(
ソースを閲覧
)
テンプレート:Lang-en
(
ソースを閲覧
)
テンプレート:Lang-en-short
(
ソースを閲覧
)
テンプレート:仮リンク
(
ソースを閲覧
)
テンプレート:出典の明記
(
ソースを閲覧
)
情報抽出
に戻る。
ナビゲーション メニュー
個人用ツール
ログイン
名前空間
ページ
議論
日本語
表示
閲覧
ソースを閲覧
履歴表示
その他
検索
案内
メインページ
最近の更新
おまかせ表示
MediaWiki についてのヘルプ
特別ページ
ツール
リンク元
関連ページの更新状況
ページ情報