視覚と自然言語の融合研究

視覚と自然言語の融合研究テンプレート:Efn（テンプレート:Lang-en テンプレート:Efn）とは、コンピュータビジョンと自然言語処理を融合した研究分野であるテンプレート:Sfn^[1]。画像や動画からのキャプション生成テンプレート:Refnest、画像や動画を対象とした質問応答（VQA）テンプレート:Refnestなどのタスクが含まれる。

1960年代からテンプレート:仮リンクの分野を中心に初期の研究が始められておりテンプレート:Sfn^[2]、1990年代ごろから画像検索テンプレート:Sfn、2000年代から画像キャプション生成テンプレート:Sfnの研究も始められた。2010年代に深層学習の適用によってコンピュータビジョンと自然言語処理が大きく発展したことに伴い、融合研究も発展を遂げているテンプレート:Sfn テンプレート:Sfn。多くの研究が行われている一方で、データセットバイアスなどの研究課題も残されているテンプレート:Sfn テンプレート:Sfn。

背景

コンピュータビジョン

テンプレート:Main コンピュータビジョンは、コンピュータに画像や動画の内容を理解させる分野であるテンプレート:Sfn^[4]^[5]。主なタスクとしては画像分類テンプレート:Sfnや物体検出テンプレート:Sfn テンプレート:Sfnなどが含まれる。敵対的生成ネットワーク（GAN）などによる画像生成が含まれる場合もある^[6]^[7]。

自然言語処理

テンプレート:Main 自然言語処理は、人間が使用する言語（自然言語）をコンピュータに処理させる分野であるテンプレート:Sfn テンプレート:Sfn。主なタスクとしては情報検索テンプレート:Sfn テンプレート:Sfn、質問応答テンプレート:Sfn テンプレート:Sfn、機械翻訳テンプレート:Sfn テンプレート:Sfnなどが含まれる。

主な研究分野

視覚と自然言語の融合研究として以下のような分野が研究されているテンプレート:Sfn テンプレート:Sfn^[8]^[9]。

自然言語処理のタスクの拡張

画像・動画の説明生成: 画像や動画に対する説明を生成するタスクであるテンプレート:Sfn テンプレート:Efn。この融合分野の代表的なタスクとされるテンプレート:Sfn画像キャプション生成も含まれるテンプレート:Sfn。; 画像キャプション生成の研究は2000年代から行われておりテンプレート:Sfn、検索エンジンやソーシャルメディアなどで画像の説明を生成するために利用されているテンプレート:Sfn。

画像・動画への質問応答（Visual Question Answering、VQA): 自然言語処理における質問応答は、人間の質問に対して回答するタスクであるテンプレート:Sfn。質問応答では、質問に回答するにあたって必要な情報を得るために、なんらかの文書を参照する場合もあるテンプレート:Sfn。質問応答が自然言語のみを使用するのに対して、VQAは質問応答タスクを拡張した、画像や動画に関する質問に答えるタスクであるテンプレート:Sfn。; 未知の物体にも対応するようなVQAは2014年に研究が始められたテンプレート:Sfn。

画像検索（Image Retrieval）: 多数の画像の中から、画像を検索するタスクである^[10]。キーワードや文章などの自然言語をクエリとして使用するタスク、画像をクエリとして類似している画像を検索するタスク、手書きの絵をクエリとするタスクなどが研究されているテンプレート:Sfn テンプレート:Sfn。; 従来は画像に人間がつけたキャプションなどを利用して検索を行っていたが、1990年代から画像に含まれる視覚情報も用いて検索を行う研究が行われるようになったテンプレート:Sfn^[10]。検索エンジンでも使用されている^[11]^[12]。

Visual Dialogの説明。「それは何色ですか」（What color is it?）という質問に対して、対話の履歴から犬の色を聞かれていることを理解する必要がある。

画像・動画に関する対話（Visual Dialog）: 画像や動画に含まれる情報に対して、自然言語を用いて対話を行うタスクであるテンプレート:Sfn。例えば、人間が対話システムに画像の内容に関する複数の質問を問いかけるという対話において、対話システムは過去の対話内容も考慮して回答する必要があるテンプレート:Sfn。; Visual Dialogは2017年に提案されて研究が始まった^[13]。

画像の参照表現（Visual Referring Expression）の理解・生成: 参照表現（Referring Expression）とは「左の三つの玉のうちの一番右の玉」のように複数の物体の中から特定の物体を識別するための言語表現である^[14]。視覚との融合分野では、自然言語で与えられた参照表現に対応する物体を画像中で示したり、画像中の物体に対応する参照表現を生成するタスクが研究されているテンプレート:Sfn。; 参照表現生成の研究は自然言語処理の分野で1970年代から行われているが^[15]、2010年代まで画像などに含まれる視覚情報を直接使うような手法はほとんど研究されていなかったテンプレート:Sfn^[16]。深層学習を用いた画像の参照表現の理解と生成の最初の研究は2016年に発表されテンプレート:Sfn、画像から直接の参照表現の理解・生成を行う研究が始まった^[16]。

画像の含意関係認識（Visual Entailment）: 自然言語処理において、含意関係認識という「ある文章が正しければもう一方の文章も正しいと言えるか」を判別するタスクがあるテンプレート:Sfn。例えば「川端康成は「雪国」などの作品でノーベル文学賞を受賞した」という文章が正しいときは「川端康成は「雪国」の作者である」も正しいという関係を判別することが求められる^[17]。視覚との融合分野では、画像に示された状況が正しいときに与えられた文章が正しいと言えるかを判別するタスクが提案されているテンプレート:Sfn。; 2018年にVisual Entailmentのタスクを提案する研究が発表されたテンプレート:Sfn。

マルチモーダル機械翻訳: 機械翻訳タスクを拡張して、元の言語の文章に加えて、文章に対応した画像や動画が与えられた状況で翻訳を行うというタスクであるテンプレート:Sfn。; 2016年にタスクが提案された^[18]。

コンピュータビジョンのタスクの拡張

テンプレート:Annotated image

文章に対する画像生成: 与えられた文章に対応した画像を生成するタスクであるテンプレート:Sfn テンプレート:Efn。; 敵対的生成ネットワーク（GAN）の登場に伴い、2016年に文章から画像を生成する最初の研究が発表されたテンプレート:Sfn。

Visual Reasoning: 画像分類や物体検出を拡張したタスクでありテンプレート:Sfn、画像や動画に含まれる視覚情報を理解するタスクであるテンプレート:Sfn。一例として、画像に含まれる複数の物体同士の関係性などを理解するタスクなどが含まれる^[19]^[20]。Visual Reasoningは視覚情報に対する質問に回答するための過程として定義されることもあるテンプレート:Sfn。すなわち、VQAやVisual Dialogのモデルは（明示的に設計されていなくても）Visual Reasoningを行なっていることになるテンプレート:Sfn。Visual Reasoningの手法を評価するために、VQAを用いることも一般的である^[20]。; 初期の研究は1960年代から行われている^[19]。

自然言語処理とコンピュータビジョンのタスクの拡張

視覚と言語を用いたナビゲーション: ナビゲーションはロボットなどに対して目的地までの道順を案内するタスクであり^[21]、視覚情報もしくは自然言語のみでのナビゲーションが研究されてきたテンプレート:Sfn。これらを拡張して、視覚と自然言語の両方の情報を使用するタスクが融合分野として研究されているテンプレート:Sfn。; 視覚と自然言語の両方の情報を用いるナビゲーションとしては、最初のデータセットが2017年に発表されている^[22]。

テンプレート:Clear

歴史

黎明期（1960年代以降）

1968年から始められたSHRDLUというプロジェクトが、視覚と自然言語の融合における最初期の研究のひとつとされているテンプレート:Sfn^[2]。SHRDLUは人間が自然言語で指示をすることで、コンピュータ内の仮想空間の積み木を操作できるコンピュータプログラムである^[2]。これ以降の視覚と自然言語の融合研究では、ロボットを自然言語による対話で操作するという分野が多く研究されてきたテンプレート:Sfn。

深層学習以前（1990年代〜2000年代）

画像検索も視覚と自然言語の融合研究における最初期のタスクのひとつであるテンプレート:Sfn。従来は画像に人間がつけたキャプションを利用していたが、1990年代から画像の視覚情報も用いて検索を行う研究が行われるようになった^[10]テンプレート:Sfn。

画像キャプション生成は2000年代ごろから研究が行われており、主にテンプレートを用いた手法が提案されていたテンプレート:Sfn。テンプレートを用いて文章を生成するためにテンプレート:仮リンクやテンプレート:仮リンクなどの局所画像特徴量^[23]に対してサポートベクターマシン（SVM）などの分類器を適用するなどの手法が提案された^[24]テンプレート:Sfn。

深層学習の適用（2010年代以降）

2010年代の深層学習の適用によって、画像と自然言語処理の融合分野も大きな発展を遂げたテンプレート:Sfn テンプレート:Sfn。VQA（2014年）テンプレート:Efn、マルチモーダル機械翻訳（2016年）^[18]、Visual Dialog（2017年）^[13]、視覚と言語を用いたナビゲーション（2017年）^[22]といったタスクの研究も2010年代に始まった。

深層学習が適用されるようになってからは、主に畳み込みニューラルネットワーク（CNN）を用いて画像や動画の特徴量を、回帰型ニューラルネットワーク（RNN）を用いて自然言語の特徴量を抽出して、2種類の特徴量を統合する手法が研究されてきたテンプレート:Sfn。2019年からはTransformer^[25]^[26]という共通のモデルを用いる手法が研究されているテンプレート:Sfn テンプレート:Sfn。

手法

画像キャプション生成の例。画像の特徴量を得るためにCNNを利用し、文章を生成するためにRNNを用いている。

視覚情報と自然言語情報の統合（2018年ごろまでの主流）

視覚と自然言語の融合研究の手法について、視覚情報や自然言語の特徴量を得る機構などには共通点が多くテンプレート:Sfn、2018年ごろまでテンプレート:Sfnの多くの手法は、(1)視覚情報処理、(2)自然言語処理、(3)二つの情報の統合を行う3個のサブシステムを持っていたテンプレート:Sfn。

視覚情報処理には、かつてはSIFTなどの局所画像特徴量が用いられていたが^[24]^[23]、深層学習が適用され始めてからは主にCNNが使用されてきたテンプレート:Sfn。2017年まではCNNが出力する特徴量をそのまま利用するモデルが多かったが、バウンディングボックスやグラフ構造を中間表現として利用する研究も行われるようになったテンプレート:Sfn。

自然言語処理には単語ベクトルが使われることが多かったがテンプレート:Sfn、深層学習が適用され始めてからは主にRNNで得られる文章全体の特徴量が使用されてきたテンプレート:Sfn。

これらの手法によって得られた画像や動画と自然言語の情報を統合するための手法は、タスクごとに様々なものが利用されているテンプレート:Sfn。CNNやRNNから得られた特徴量ベクトルを統合する最も単純な方法は、二つのベクトルを連結したりアダマール積をとることであるテンプレート:Sfn。より高度な手法として、テンプレート:仮リンク（Attention）という手法を適用して、画像や自然言語からそれぞれのクエリに対して重要な情報を自動的に選択して利用することが提案されているテンプレート:Sfn。

統合的な事前学習（2019年以降）

事前学習とは、機械学習のモデルを大規模なデータセットで学習することで、さまざまなタスクに用いることができる特徴量を抽出できるモデルを学習する手法である^[27]。大規模なデータセットで事前学習を行ったのちに、比較的小規模のデータセットを用いて個別のタスクにチューニングを行うことで、高い性能を持つモデルを学習できることが知られている^[27]。コンピュータビジョンにおいてはCNNをImageNetなどの大規模なデーセットで事前学習することは広く行われてきたが^[27]、RNNを用いた自然言語処理で事前学習を行うことは少なかったテンプレート:Sfn テンプレート:Efn。2017年に発表された自然言語処理の新しいモデルであるTransformer^[25]に対して事前学習を行う手法が2018年に提案され^[28]、自然言語処理においても文章全体について事前学習を行う研究が行われるようになった（BERTなど）テンプレート:Sfn。2018年には動画にTransformerを適用する研究が提案され、2020年には画像にTransformerを適用する研究も始められた（テンプレート:仮リンク）テンプレート:Sfn。

視覚と自然言語の融合研究においても、2019年からTransformerを用いて画像・動画と自然言語の事前学習を同時に行う研究が行われているテンプレート:Sfn。

主なタスクの研究・評価手法

視覚と自然言語の融合研究のタスクには共通点があるがテンプレート:Sfn テンプレート:Sfn、タスクごとに異なる手法が研究されているテンプレート:Sfn。ここでは主なタスクの手法と評価手法を紹介する。

画像・動画の説明生成

画像キャプション生成の手法: 研究が始められた2000年代ごろには主にテンプレートを用いた手法が提案されていたテンプレート:Sfn。テンプレートを用いて文章を生成するためにテンプレート:仮リンクやテンプレート:仮リンクなどの局所画像特徴量^[23]に対してSVMなどの分類器を適用するなどの手法が提案された^[24]テンプレート:Sfn。; 深層学習を用いた手法が発展した2010年代には、CNNとRNNを用いる方法が一般的になったテンプレート:Sfn。さまざまなモデルが提案されているが、単純かつ一般的に使用されている手法としては教師あり学習を用いたエンコーダ・デコーダモデルがあるテンプレート:Sfn。これは、CNNを用いて画像特徴量を抽出して、画像特徴量をRNNに入力してキャプションを生成するという手法であるテンプレート:Sfn。2019年には画像と自然言語の両方にTransformerを使用する手法も提案されているテンプレート:Sfn。

評価手法: 主に使用されているのは、生成された説明とデータセットに含まれる説明の類似度による評価であるテンプレート:Sfn テンプレート:Sfn。テンプレート:仮リンク、ROUGE、テンプレート:仮リンクといった機械翻訳などの自然言語処理タスクで使用されている評価基準が使われているテンプレート:Sfn テンプレート:Sfn。

画像・動画への質問応答（VQA)

VQAの手法の例^[29]。画像に注意機構（Attention）を適用している。

手法: 2014年に研究が始められた当初の手法は、あらかじめ定義された形式の回答に限定されたものだったが、2015年には回答の形式を限定しないような質問にも対応できるモデルが提案されたテンプレート:Sfn。2015年に提案されたモデルのひとつは、CNNで抽出された画像の特徴量ベクトルと質問文章の単語ベクトルの両方をエンコーダのRNN（LSTM）に入力することで特徴量を統合し、デコーダのRNNで回答を生成する手法であるテンプレート:Sfn。同時期には、特徴量の統合の方法を変更したり、注意機構（Attention）の適用や、データベースを利用する方法など、様々な手法が提案されているテンプレート:Sfn。2019年には自然言語処理にTransformerを使用するモデルやテンプレート:Sfn、Transformerを用いて画像と自然言語の特徴量を統合的に事前学習する手法が提案されている^[30]。

評価手法: VQAの回答は画像キャプションなどよりは短いことが多いため、単純な評価手法が使用されることが多いが、高度な評価手法も研究されているテンプレート:Sfn。単純な手法のひとつは、生成された回答とデータセットに含まれる回答が厳密に一致しているかを評価することであるテンプレート:Sfn。高度な手法としては、回答の意味の類似度を評価する手法が研究されているテンプレート:Sfn。

画像検索（Image Retrieval）

手法: さまざまな種類のクエリに対する画像検索が研究されているがテンプレート:Sfn テンプレート:Sfn、文章か画像をクエリとする研究が多く研究されているテンプレート:Sfn。; 文章をクエリとする検索について、2019年でもウェブ検索では人間がつけたキャプションなどの自然言語の情報を利用しているとされているテンプレート:Sfn。キャプションがない画像も検索するために、画像キャプション生成などを用いてテンプレート:Sfn自動的にアノテーションを行う手法を適用することが研究されているテンプレート:Sfn。; 人間がつけたキャプションなどを利用しない方法として、1990年代から画像をクエリとして類似する画像を検索する研究が行なわれているテンプレート:Sfn テンプレート:Sfn。画像をクエリとした画像検索は、画像から特徴量を抽出して類似度を評価することで行なわれるテンプレート:Sfn。初期の研究として色、形、質感などを特徴量として使用する方法が研究されてきたが、それだけでは画像が表す意味の類似性を比較することができないことが課題だったテンプレート:Sfn。そのため、深層学習が適用される以前から、画像全体の意味も表すような特徴量も併用する試みが研究されてきたテンプレート:Sfn。深層学習を使用した方法も数多く提案されており、CNNを利用して画像検索に有用な特徴量を抽出する研究が行なわれているテンプレート:Sfn。

評価手法: 画像検索には情報検索の評価手法が用いられるテンプレート:Sfn。評価手法として様々なものがあり、想定される適用先などによって使い分けることが求められるテンプレート:Sfn。広く用いられているのはテンプレート:仮リンク、およびF値であるテンプレート:Sfn。ここで、検索結果の上位k個の画像を「検出された」と判定するとするテンプレート:Sfn。また、評価の際には、検出されるべき正解の画像（複数の場合もある）が分かっているとするテンプレート:Sfn。下式のように、適合率（P）は検出された画像の中で、正解の画像（tp）の割合で表される（fpは誤って検出された画像の数）テンプレート:Sfn。再現率（R)は検出されるべき正解の画像の中で、実際に検出された画像（tp）の割合で表される（fnは正解の画像だが、検出されなかった画像の数）テンプレート:Sfn。; $𝖯 = \frac{t p}{t p + f p}, 𝖱 = \frac{t p}{t p + f n}$; F値は適合率と再現率の調和平均で求められるテンプレート:Sfn。

文章に対する画像生成

手法: 2016年からGANを応用した手法が提案されていたが、文章で条件付けしない通常の画像生成と比較すると、生成される画像の質が低かったテンプレート:Sfn。画像の質を高めるために複数のGANを使用したり、文章全体の意味を画像に反映するために注意機構（Attention）を使用する研究が提案されたテンプレート:Sfn。

評価手法: GANなどのコンピュータビジョンにおける画像生成タスクで使用される評価指標が使われているテンプレート:Sfn。Inception Scoreという指標を用いて画像の質や多様性を評価できるが、Inception Scoreでは文章に対応した画像を生成できているかを評価することができないので、R-Precisionという指標も併用される^[31]。

データセット

大規模なデータセットを用いて学習することは、深層学習モデルの汎化性能を高める重要な要素のひとつであるテンプレート:Sfn。視覚と自然言語の融合研究においても大規模なデータセットは重要な役割を果たしており、モデルの学習と評価に不可欠な存在であるテンプレート:Sfn。写真の共有サイトであるFlickrなどから提供される画像データとクラウドソーシングによるアノテーションによって、大規模なデータセットを作ることが可能になったテンプレート:Sfn。このような既存の画像を収集するだけではなく、データセットのために作成されることもある^[22]。

さまざまなデータセットが提案されているが、データセットのサイズ（含まれる画像や文章の数）、画像の質や多様性、文章の長さ、文章に含まれる単語や構文の多様性、アノテーションの豊富さなどの異なる性質を持っておりテンプレート:Sfn、それぞれのデータセットに利点と欠点があるテンプレート:Sfn。

本節では主なデータセットを紹介するテンプレート:Efn。

画像・動画の説明生成

データセットには画像と説明文が含まれるが、データセットによってデータの数や質、収集方法などが異なるテンプレート:Sfn。

キャプション付き画像データセット


名称	発表年	画像の枚数	各画像のキャプション数	特徴	出典
SBU Captioned Photo Dataset	2011	1,000,000	1	Flickrから集められた写真で、ユーザがつけたキャプションを利用している。	^[32]
Flickr 30K Images	2014	31,014	5	Flickrから集められた写真に対して、クラウドソーシングでキャプションを付けている。	^[33]
Microsoft COCO Dataset	2014	123,287	5	Flickrから集められた写真に対して、クラウドソーシングでキャプションを付けている。広く利用されているデータセットテンプレート:Sfn。	^[34]

説明付き動画データセット

名称	発表年	動画の数	動画の合計時間	文章の数	特徴	出典
Microsoft Research Video Description Corpus	2011	1,970	5.3時間	70,028	YouTubeの動画に、クラウドソーシングで説明をつけている。複数言語の説明がつけられている。	^[35]

画像への質問応答

異なる特徴を持ったさまざまなデータセットが提案されている。実世界の画像を用いたデータセットが良く使われているがテンプレート:Sfn、画像認識の能力ではなく意味を理解できているかの評価に注目するために、クリップアートで作成された絵を用いたデータセットも提案されているテンプレート:Sfn。初期のデータセットは画像中の情報を理解できれば質問に答えられるものであったが、2015年に発表されたKB-VQAというデータセットなどは、画像中の情報だけでは質問に正しく回答することはできず、外部データベースの知識を用いることが求められるテンプレート:Sfn。2017年に発表されたVisual Genomeというデータセットでは、画像のシーングラフ（物体をノード、物体同士の関係（位置関係など）をエッジとするグラフテンプレート:Sfn）が与えられているテンプレート:Sfn。


名称	発表年	画像の枚数	質問の数	回答の数	説明	出典
Visual Question Answering Dataset (v1.0)	2015	204,721 + 50,000	614,163 + 150,000	6,141,630 + 1,500,000	MS COCOの画像（204,721枚）とクリップアートで作成された絵（50,000枚）に対して、クラウドソーシングで質問と回答がつけられている。	^[36]

課題

データセットバイアス

データセットバイアスとは、機械学習モデルの学習に使用したときに誤った結論を導く可能性がある、データセットの偏りのことである^[37]。例えば、画像データセットを用いて「自動車」を認識する機械学習モデルを学習するときに、ImageNetというデータセットでは「自動車」というラベルにスポーツカーを多く含むため、自家用車の検出性能が低くなってしまうという問題が起こることがある^[38]。逆に、学習データとテストデータは多くの場合は同じ条件で集められているため、学習データを記憶するだけでテストデータにも対応できてしまい、実際の性能よりも高く評価されてしまうという問題が起こることもあるテンプレート:Sfn。

データセットバイアスはコンピュータビジョンや自然言語処理のそれぞれの分野でも問題となるが、両方の分野を対象とする融合研究ではより深刻な影響を受けるとされているテンプレート:Sfn^[39]。一例として、VQAのデータセットにおいて、質問に対する回答に偏りがあると画像を使わなくても一定の精度を達成できてしまうことが知られているテンプレート:Sfn^[40]。例えばデータセットに「画像中に〜がありますか」という形式の質問が複数あり、答えとして「はい」が多いという偏りがあるとするテンプレート:Sfn。機械学習モデルは画像の内容を確認して答えることが期待されるが、自然言語の質問だけを見て「画像中に〜がありますか」という形式の質問には常に「はい」と答えるように学習をされてしまうことが起こり得るテンプレート:Sfn^[40]。

解決方法としてデータセットからバイアスを取り除く方法が研究されているが、大規模なデータセットにおいてあらゆる要素のバイアスを取り除くことは不可能に近く、未解決の問題とされているテンプレート:Sfn。

評価の難しさ

評価手法はコンピュータビジョンと自然言語処理の各分野においても課題のひとつであるが、融合研究においてはさらに大きな問題となっているとされているテンプレート:Sfn。特に自然言語生成に関係するタスクにおける評価は難しいとされるテンプレート:Sfn テンプレート:Sfn^[41]。例えば画像キャプション生成において「男性が木の横を歩いている」と「男が木のそばを散歩している」という二つの文章はほとんど同じ意味を表しているが、自動的に類似度の評価を行うことは難しいテンプレート:Sfn。また、VQAにおいて「鳥」という答えが正解とされている問題に対して、「鷹」という答えが正しいのかどうかを自動的に評価することは難しいテンプレート:Sfn。

評価手法を改善する研究は行われているが、未解決の問題となっているテンプレート:Sfn。

脚注

注釈

テンプレート:Reflist

出典

テンプレート:Reflist

参考文献

書籍

サーベイ論文（視覚と自然言語の融合研究について）

分野全体について

それぞれのタスクについて

サーベイ論文（コンピュータビジョンおよび自然言語処理について）

[ipsj-247nl-1] 1.0 ^1.1 テンプレート:Cite web

[:4-2] 2.0 ^2.1 ^2.2 テンプレート:Cite web

[2019-06-intersection-vision-language-3] 3.0 ^3.1 テンプレート:Cite web

[4] テンプレート:Cite journal

[5] テンプレート:Cite web

[6] テンプレート:Cite journal

[7] テンプレート:Cite journal

[:0-8] テンプレート:Cite web

[ipa2017-9] テンプレート:Cite web

[:9-10] 10.0 ^10.1 ^10.2 テンプレート:Cite journal

[11] テンプレート:Cite web

[12] テンプレート:Cite web

[:6-13] 13.0 ^13.1 テンプレート:Cite journal

[14] テンプレート:Cite journal

[15] テンプレート:Cite journal

[:13-16] 16.0 ^16.1 テンプレート:Cite journal

[17] テンプレート:Cite journal

[:14-18] 18.0 ^18.1 テンプレート:Cite journal

[:2-19] 19.0 ^19.1 テンプレート:Cite journal

[:10-20] 20.0 ^20.1 テンプレート:Cite journal

[21] テンプレート:Cite journal

[:12-22] 22.0 ^22.1 ^22.2 テンプレート:Cite journal

[:15-23] 23.0 ^23.1 ^23.2 テンプレート:Cite journal

[:19-24] 24.0 ^24.1 ^24.2 テンプレート:Cite journal

[:16-25] 25.0 ^25.1 テンプレート:Cite journal

[:17-26] テンプレート:Cite journal

[:18-27] 27.0 ^27.1 ^27.2 テンプレート:Cite journal

[28] テンプレート:Cite journal

[29] テンプレート:Cite journal

[30] テンプレート:Cite journal

[31] テンプレート:Cite journal

[32] テンプレート:Cite web

[33] テンプレート:Cite journal

[34] テンプレート:Cite journal

[35] テンプレート:Cite journal

[36] テンプレート:Cite web

[37] テンプレート:Citation

[38] テンプレート:Cite journal

[39] テンプレート:Cite web

[vqa-40] 40.0 ^40.1 テンプレート:Cite journal

[41] テンプレート:Cite journal

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

視覚と自然言語の融合研究

目次

背景

コンピュータビジョン

自然言語処理

主な研究分野

自然言語処理のタスクの拡張

コンピュータビジョンのタスクの拡張

自然言語処理とコンピュータビジョンのタスクの拡張

歴史

黎明期（1960年代以降）

深層学習以前（1990年代〜2000年代）

深層学習の適用（2010年代以降）

手法

視覚情報と自然言語情報の統合（2018年ごろまでの主流）

統合的な事前学習（2019年以降）

主なタスクの研究・評価手法

画像・動画の説明生成

画像・動画への質問応答（VQA)

画像検索（Image Retrieval）

文章に対する画像生成

データセット

画像・動画の説明生成

キャプション付き画像データセット

説明付き動画データセット

画像への質問応答

課題

データセットバイアス

評価の難しさ

脚注

注釈

出典

参考文献

書籍

サーベイ論文（視覚と自然言語の融合研究について）

分野全体について

それぞれのタスクについて

サーベイ論文（コンピュータビジョンおよび自然言語処理について）

ナビゲーションメニュー

視覚と自然言語の融合研究

背景

コンピュータビジョン

自然言語処理

主な研究分野

自然言語処理のタスクの拡張

コンピュータビジョンのタスクの拡張

自然言語処理とコンピュータビジョンのタスクの拡張

歴史

黎明期（1960年代以降）

深層学習以前（1990年代〜2000年代）

深層学習の適用（2010年代以降）

手法

視覚情報と自然言語情報の統合（2018年ごろまでの主流）

統合的な事前学習（2019年以降）

主なタスクの研究・評価手法

画像・動画の説明生成

画像・動画への質問応答（VQA)

画像検索（Image Retrieval）

文章に対する画像生成

データセット

画像・動画の説明生成

キャプション付き画像データセット

説明付き動画データセット

画像への質問応答

課題

データセットバイアス

評価の難しさ

脚注

注釈

出典

参考文献

書籍

サーベイ論文（視覚と自然言語の融合研究について）

分野全体について

それぞれのタスクについて

サーベイ論文（コンピュータビジョンおよび自然言語処理について）

ナビゲーション メニュー

検索

ナビゲーションメニュー