情報検索のソースを表示

{{otheruses||図書館情報学における情報検索|情報検索 (図書館情報学)}}
{{See Wiktionary||検索}}
{{出典の明記|date=2024年3月}}

'''情報検索'''（じょうほうけんさく、{{Lang-en|information retrieval}}）とは、[[コンピュータ]]を用いて大量の[[データ]]群から目的に合致したものを取り出すこと。検索の対象となるデータには[[文書]]や[[画像]]、[[音声]]、映像（[[動画]]）、その他さまざまなメディアやその組み合わせとして記録されたデータなどが含まれる。[[インターネット]]の発達により検索はインターネットを介して行われることも多いが、ここでは[[情報]]を検索<ref>[http://dictionary.goo.ne.jp/search.php?kind=jn&mode=0&MT=%b8%a1%ba%f7&from=stick6&PT=stick6 検索]、[[三省堂]][[大辞林]]</ref>するためのコンピュータ側における仕組みを記述している。

情報検索に対するコンピュータ側における技術は情報を人間が直接管理するのに比べ、データの量的な制約やデータの取り扱いの一貫性を保つ困難さという制約を受けることなく、高速で安定なシステムにより利用者に適切なデータを提供する機能と位置付けることができる。

== 情報検索と情報検索システムの全体像 ==
情報検索が基盤としている技術は多数の分野にのぼる。情報検索はデータの管理および入出力のための[[データベース]]、文書データ処理のための[[自然言語処理]]や[[計算言語学]]、画像や音声を扱うための[[信号処理]]や[[認知心理学]]を背景とする[[パターン認識]]技術、[[メタデータ]]に関する考察の基盤となった[[図書館情報学]]、検索[[アルゴリズム]]設計や情報検索システムの評価尺度考案のヒントとして寄与した諸[[数学]]理論などのさまざまな要素技術の組み合わせによって成り立っている。'''情報検索システム'''は情報検索を実現するための[[ソフトウェア]]や[[ハードウェア]]によって構成されるシステムである。ここでは主にソフトウェアに関して、現在よく用いられているシステムの構成について述べる。

=== 歴史と現在の課題 ===
{{see also|en:File Retrieval and Editing System}}
[[1970年代]]に<ref>{{Cite web|author=Charles T. Meadow|year=1967|url=https://cir.nii.ac.jp/crid/1390001204175123584|title=The analysis of information Systems-a programmer's introduction to information retrieval.|publisher=John Wiley & Sons, Inc.|language=英語|accessdate=2008-11-19}}</ref><ref>{{Cite web|和書|author=Charles T. Meadow(IBM社)|coauthors=渡辺茂監, 高地高司・笹森勝之助訳|year=1970|url=https://cir.nii.ac.jp/crid/1390001204175878912|title=情報検索-検索言語・情報構成・ファイル処理|pages=357p|publisher=日本経営出版会|language=日本語|accessdate=2008-11-19}}</ref>、大規模に蓄積される学術文献や論文等の管理をコンピュータ上で行うために、規模の大きい[[図書館]]でデータの管理と検索が行われるようになり、需要に応えるべく情報検索システムの開発が進んだ。図書館における蔵書検索や[[電子ジャーナル]]、統計資料のデータベースなどへの応用は現在でも盛んに用いられているほか、[[1990年代]]から広まった[[Google]]や[[goo]]のような[[World Wide Web]]上のデータを対象にした[[検索エンジン]]が現在では情報検索のシステムとして特に身近な存在となっている。[[2000年代]]以降の情報検索の課題は、例として以下のようにまとめることができる。
*いわゆるDeep Web（ショッピングサイトなどに代表される、[[バックエンド]]の大規模なデータベースが動的なコンテンツを生成する[[ウェブサイト]]）を対象にした検索
*より直観的な[[ユーザインタフェース]]
*より人間に近い高度な判断尺度を持った[[マルチメディア]]情報検索
*さまざまなメディアを統合的かつ横断的に扱う[[クロスメディア]]情報検索
*格納されるデータや検索入力が言語に依存しない[[マルチリンガル]](クロスリンガル)検索環境
*[[ピア・ツー・ピア|P2P]]ネットワーク等の大規模分散データを対象にした情報検索

=== 情報検索システムの構成要素 ===
[[画像:Information retrieval overv.png|thumb|270px|right|情報検索システムの全体像]]
情報検索システムは主に以下に挙げる要素によって構成されている。
*'''データベース'''
*'''検索対象のデータ'''
*'''メタデータ（索引語）'''
*'''ユーザインタフェース'''
*'''検索アルゴリズム'''

'''データベース'''は'''検索対象のデータを'''蓄積し、管理している。'''検索対象のデータ'''からは'''メタデータ'''が作成され、'''メタデータ'''も'''データベース'''に格納される。検索の利用者は検索語(検索文)を'''ユーザインタフェース'''を通して検索を発行し、'''検索アルゴリズム'''が適切なデータを'''データベース'''に格納されている'''メタデータ'''から選択し、選択された'''メタデータ'''に対応する'''検索対象のデータ'''を'''ユーザインタフェース'''を通して利用者に返答する。

例えばウェブサイトの情報検索では、検索対象のデータが個々のウェブサイトの内容、メタデータがウェブサイトの内容の要約やキーワード・紹介文、ユーザーインターフェースと検索アルゴリズムが検索エンジンにあたる。検索エンジンは検索キーワードに一致するメタデータをデータベースから選択し、選択されたメタデータに対応する検索対象のデータを検索結果に表示する。

=== 情報検索システム構築の手続き ===
情報検索システムの構築は以下のフェーズを経て行われる。順序は必ずしも一定ではなく、構築するシステムの内容や外的環境によって異なる。

==== 検索対象データ収集 ====
検索の対象とするデータの収集方針を決定する。[[World Wide Web]]上の[[ハイパーテキスト]]を収集して対象とする場合には[[クローラ]](ロボット、スパイダー)を用いて自動的な収集を行うのが一般的であるが、天文学的数量の膨大なデータが存在し、かつ急激に変化するWorld Wide Webのデータを全て網羅して収集することは事実上不可能である。そのため、いかにして網羅的に多くの対象のデータを収集するかが重要な課題となっており、World Wide Web検索エンジンのサービスでは何ページのデータか検索が可能であるかが性能の指標の一つとなっている。

==== 検索対象のデータからのメタデータ作成 ====
検索対象のデータからのメタデータを作成する。メタデータの形式および作成方法は検索アルゴリズムやデータ収集の方針と密接に関連する。たとえばデータ収集が継続的かつ大規模に行われるような場合、人手を使ってメタデータを作成することはコストの大幅な増大を意味することになる。
<!-- メタデータ生成時の方針別のメリット・デメリット-->

==== 検索アルゴリズムの設計 ====
作成されたメタデータを用いてどのような計算を用いてデータを出力するか決定する。検索アルゴリズムの詳細については[[メタデータ生成法]]と[[情報検索アルゴリズム]]を参照。

==== 検索性能の評価 ====
[[画像:Precision and recall.png|thumb|265px|right|再現率と適合率]]
情報検索システムの検索性能の評価を行う。情報検索システムの検索性能は主に正確性と網羅性の質的な観点から'''適合率(precision;精度ともいう)'''と'''再現率(recall)'''を、処理性能の量的な観点から[[スループット]]を測定することにより判定するのが一般的である。'''適合率'''は検索結果として得られた集合中にどれだけ検索に適合した文書を含んでいるかという'''正確性'''の指標であり、'''再現率'''は検索対象としている文書の中で検索結果として適合している文書（正解文書）のうちでどれだけの文書を検索できているかという'''網羅性'''の指標である。'''適合率'''は、
:<math>p = \frac{R}{N}</math>
（''R'':検索された適合文書の数、''N'':検索結果の文書の数）
によって、'''再現率'''は、
:<math>r = \frac{R}{C}</math>
（''R'':検索された適合文書の数、''C'':全対象文書中の正解文書の数）
によって求められる。

適合率をあげれば再現率が下がり、再現率を上げれば適合率が下がる傾向にあるため、'''F値(F-measure)'''という尺度もよく用いられる。F値は適合率と再現率の[[平均#調和平均|調和平均]]であり、
:<math>
\begin{align}
 F{\textit{-}} & = \frac{2 \cdot p \cdot r}{p + r} \\
           & = \frac{R}{\frac{1}{2} (N + C)} \\
\end{align}</math>
によって求められ、''R''を''N''と''C''の[[平均#相加平均|相加平均]]で割ったものに相当する。F値が高ければ、性能が良いことを意味する。<ref>天気予報の性能を示す[[スレットスコア]]はF値に類似した指標である。</ref>

== 情報検索技術の分類 ==
情報検索の技術は以下のような観点で分類できる。

=== 検索対象データの抽象度 ===
; 直接検索 : メタデータを介さずデータそのものを直接計算アルゴリズム上で処理する検索方法。例として[[ハミング]]による検索の入力を行い類似する音程の音楽を検索するもの等。実用上は、前処理としての索引の生成を事前におこなう方式も多いが、このような場合もデータに含まれる表現をそのまま用いて検索を行うため検索モデルとしては直接検索に分類される。
:; [[全文検索]] : 直接検索の一種であり、文書データの全文から自動処理の走査によりメタデータを作成して保管し、検索の入力に合致するデータを検索結果とする検索方法。「[[Namazu|全文検索システムNamazu]]」や「[[Apache Solr]]」等が用いられている。
; 間接検索 : データベースに蓄積されたデータからメタデータを生成して保管し、検索の入力が行われた際に内部表現に変換された検索の入力と保管されたメタデータを比較することにより検索結果を生成する検索方法。

=== 検索入力の種類 ===
検索入力は検索結果を求めるのに必要な情報で、言語に限らないが[[問い合わせ言語]]という意味でのクエリと考えてよい。
; 単語（キーワード） : 単語（キーワード）を指定することによって検索を行う。もっとも単純な形式と言える。検索したいキーワードを入力した後で実際の検索を開始させるコマンドを発行する方式が古典的だが、一文字入力するごとに直ちに検索が始まり、入力を進めるたびに絞りこまれていく[[インクリメンタルサーチ]]も広く利用されている。さらに検索回数などでランク付けし、入力に続くキーワードと検索結果を予測して列挙する、その一覧をランクによってソートして素早く結果を提示するだけでなく、あいまい検索や「昨日」「今日」などの相対的な表現から日付を特定するといった、より自然な単語での検索を可能にする、[[ワイルドカード (情報処理)|ワイルドカード]]など、他の種類の検索入力を取り込んで複雑化している分野でもある。
; 検索言語 : システム特有の検索言語を用いて検索を行う方法。[[論理和]]・[[論理積]]などの[[ブール論理]]の演算を検索の絞り込みに利用する際に用いられる。研究者や法律・医学等の専門的な実務家など、特定の分野の専門家を対象にした検索システムなどに用いられることが多い。[[SQL]]のような[[データベース管理システム]]で標準規格に則った言語を用いることもあるが、特定の検索エンジン特有の検索言語を用いているシステムも多い。実現例としては[[IEEE]] Xploreなどがある。
; 直接入力 : 検索のパラメータとなる関連するデータを直接入力する方法。たとえば特定の画像を入力にして類似した画像を検索するもの（[[顔認証システム]]、Google画像検索の画像指定検索など）や、ハミング（鼻歌）の入力を受けて関連する音楽クリップを検索するものなどが研究されている。[[パターン認識]]技術と密接に関わる。
; 自然文 : 検索に関わるユーザインタフェースの研究として古くから研究が行われている。近年ではGoo ラボによって開発された「日本語自然文検索」が大手の検索エンジンとしては比較的珍しい自然文検索を試験的に提供したことで話題を集めた。
; 文書 : 文書そのものを入力し、入力した文書と類似する文書を検索する。[[例示による問い合わせ]]（Query by Example）と呼ばれることもある。マルチメディア文書検索ではキーワード検索よりも一般的に用いられる方法である。

==検索アルゴリズム==
情報検索に用いられるアルゴリズムは数多く提案されている。ここでは代表的なものについて概説する。情報検索アルゴリズムの詳細については[[情報検索アルゴリズム]]を参照のこと。

一般に情報検索システムの構築時にはメタデータ生成時に[[索引]]を同時に作成し、検索アルゴリズムによる検索結果の評価の際に索引を用いた[[最適化 (情報工学)|最適化]]を行うが、メタデータの生成法や索引の詳細についてはここでは扱わない。
; [[パターンマッチング]] : 検索質問として入力された表現をそのまま含む文書を検索するアルゴリズム。単純にパターンのみを探すだけではなく、活用形の変化による同義語のパターンの不一致を解消した検索を行ったりといった拡張がしばしば行われる。パターンマッチング自体の詳細なアルゴリズムについては[[文字列探索]]を参照。
; [[ブール論理]] : パターンマッチングの検索に付け加え、メタデータの[[属性]]ごとの絞り込み条件を[[論理和]]・[[論理積]]などによって組み合わせて併用する検索方法。
; [[ベクトル空間モデル]] : キーワード等を各[[次元]]として設定した高次元[[ベクトル空間]]を想定し、検索の対象とするデータやユーザによる検索質問に何らかの加工を行い[[ベクトル_(数学)|ベクトル]]{{要曖昧さ回避|date=2021年7月}}を生成する。ベクトル空間上に検索対象となるベクトルを配置し、ベクトル化された検索質問とデータのベクトルの相関量（ベクトル間の[[三角関数|コサイン]]、[[内積]]、[[ユークリッド距離]]などが用いられる。）によって検索の対象のデータと検索質問の関係の強さを計算するモデル。
:; [[潜在的意味索引付け]](潜在的意味分析、LSI) : ベクトル空間モデルの応用として考案された検索アルゴリズム。高次元ベクトル空間を行列として扱い[[特異値分解]]を行い、得られた[[直交]]低次元ベクトル空間上検索を行う。単純なベクトル空間モデルでの検索に比べて、同義語が用いられている文書間の関連を反映し、検索の対象のデータの内容的な偏りに影響を受けにくい検索を行うことができるというメリットがある。

== 関連項目 ==
* [[文書検索]]
* [[全文検索]]
* [[概念検索]]
* [[データマイニング]]
* [[エンタープライズサーチ]]
* [[データ・クラスタリング]]
* [[情報フィルタリング]]
* [[TREC]]
* [[地理情報システム]]
* [[CBIR]](Content-Based Image Retrieval)
* [[音声検索]]
* [[メタデータ]]
* [[フォークソノミー]]
* [[二項分類]]
* [[ナレッジマネジメント]]
* [[適合性 (情報検索)]]

== 参考文献 ==
{{参照方法|date=2024年3月|section=1}}
*徳永健伸著 辻井潤一編 『情報検索と言語処理 言語と計算』 東京大学出版会、1999年。
*北研二、津田和彦、獅々堀正幹著 『情報検索アルゴリズム』 共立出版、2002年。
*Ricardo Baeza-Yates, Berthier Ribeiro-Neto. ''Modern Information Retrieval'', Addison Wesley, 1999.

== 脚注 ==
<references />

== 外部リンク ==
* [https://jrecin.jst.go.jp/html/compass/e-learning/40-739/index.html 情報検索コース] - 研究人材のためのe-learning（[[科学技術振興機構]]）
* {{コトバンク}}

=== オープンソースの情報検索システムソフトウェア ===
*[[Namazu]]
*[[Hyper Estraier]]
*[[Senna]]
*[http://www.htdig.org/ ht://Dig]
*[http://geta.ex.nii.ac.jp/ 汎用連想計算エンジン(GETA)]
*[[Apache Solr]]

=== 主な学術団体 ===
*[http://www.ipsj.or.jp/katsudou/sig/sighp/fi/ 情報処理学会 情報基礎とアクセス技術(IFAT)研究会]
*[http://www.ipsj-dbs.org/ 情報処理学会 データベースシステム(DBS)研究会]
*[http://www.ieice.org/iss/de/jpn/ 電子情報通信学会 データ工学研究会]
*[http://www.acm.org/sigir/ ACM SIGIR:  Special Interest Group on Information Retrieval]
*[http://www.acm.org/sigmm/ ACM SIGMM:  Special Interest Group on MultiMedia]
*[http://www.acm.org/sigmod/ ACM SIGIR:  Special Interest Group on Management of Data]

=== その他 ===
*[http://research.nii.ac.jp/ntcir/index-ja.html NTCIR 情報検索システム評価用テストコレクション構築プロジェクト]
*[http://trec.nist.gov Text Retrieval Conference (TREC)]

{{コンピュータ科学}}
{{Normdaten}}
{{DEFAULTSORT:しようほうけんさく}}
[[Category:情報検索|*]]
[[Category:計算機科学]]
[[Category:コンピュータの利用]]
[[Category:データベース]]

[[sv:Informationsåtkomst]]