1. 画像キャプション生成 とは [概要]
画像キャプション生成(Image Captioning)とは,1枚の画像を入力として,その画像中で行われている出来事や人物・動物などの振る舞いなどを説明するキャプション(caption)の文章を生成する問題である.画像中の各要素をそれぞれ画像認識モデルで認識したのち,その画像特徴量や識別されたラベルをもとに,言語モデルを用いてキャプションを生成する.
この記事では,画像キャプション生成の技術のうち,ディープラーニング以前の初期の研究から,2017~2018年頃までの深層学習ベースの「基本的手法」を紹介する.
1.1 問題の位置付け
1.1.1 Vision-Language 問題の1つとして
画像キャプション生成は,「画像・動画」と「その説明文章」の対応関係を学習するVision and Language (Vision-Language) の問題設定の1つである.図1は,画像キャプション生成の問題設定を図示したものである.入力の画像(芝生に座っているコーギー犬)が 画像キャプション生成モデルに入力されると,出力としてその画像の内容を記述したキャプション文(ここでは英語の説明文)が生成される.
画像キャプション生成モデルは,Image EncoderとLanguage Decoderを接続する間に,アテンション機構を加えたEncdoder-Decoder構成のネットワークに設計することが多かった.それが,近年では,Transformerを用いてシステムを構成することも多い.
1.1.2 なぜ英語文を主に生成するか?
研究業界では,画像キャプショニング向けのデータセットは「画像-英語説明文 のペア」のものが大多数であり,英語文を生成する画像キャプショニングモデルが中心的に研究され続けている.キャプションが日本語化されたデータセットも存在しているが,まだ産業応用でのキラーアプリケーションの成功例が日本ではないのもあり,まだ日本語文キャプションの研究例や応用例は多くない.
ただし,近年は機械翻訳モデルの進歩も目覚ましいので,英語のキャプションさえ生成できてしまえば,あとは英語から目的の多言語に自動翻訳すればよい,という考えた方もできる.
1.1.3 物体認識との違い
以前から行われていた,画像認識の中心課題である物体認識では,クラス識別ラベルを用いて,画像もしくは物体の領域を「車」とか「人」と,クラス識別する予測モデルを学習する事が主流であった.個別の物体にラベルを予測しており,物体やシーン全体の「文章的な」記述の予測はしていなかった.
それが,画像キャプション生成では,生成する文章キャプションを構成する画像シーン中の,多くのつぶさな情報をまとめた,「画像の説明文(キャプション)」を生成することが目的である.これは,各物体の行動や状態・属性の(各種)画像認識を解くことに加えて,画像中に登場する物体間の関係性,背景・場所のシーン状況なども画像から把握しておく必要がある.
また,人間が読みやすく文法的にも正しい「自然な文」としてキャプションを生成する必要があり,そのための自然言語処理的な,文の生成技術も必要となる.各物体を物体検出器でラベル付けして,それらの単語を,単純にテンプレート文で合成するだけでは,自然な文は合成できないからである.
このように,初期の画像キャプション生成(およびその他のVision-Language 問題全般)は,技術的難易度の高さがあり, データセット準備コストの高さもあった.よって,腕利きの先端的研究者でないと,なかなか手を出しづらい高難度の研究課題であった (2節).
それが,ディープラーニング登場後は,シンプルな実装で使いやすいアテンション機構と系列対系列変換モデルが,解決策として登場したことで,技術的敷居が下がった.これにより,画像キャプション生成だけでなく,その他Vision-Languageの応用研究例も一気に増加していく(3節~5節).
1.2 記事の構成
2節以降では,登場した時系列順に,以下の4つに大別して紹介する:
- 2節:問題提案期 (初期の研究群)
- 3節:初期のディープ手法:
- 4節:物体領域へ注目するディープ手法(1):
- 視覚アテンションで,物体領域と対応する単語の間だけで強く対応づける手法.
- 5節:物体領域へ注目するディープ手法(2):
- 物体検出領域と物体単語間で,明示的な対応づけも行う手法.
- 6節:まとめ
これらの,おおよそ2017~2018年頃の主な画像キャプション生成の研究を,この記事「(1) 基本編」でまとめる.
2017年ごろ以降,更に問題設定や解き方が多様化しているが ,それらについては別の記事 「(2) 応用編」としてまとめたい (例:問題設定としては,パーソナライズ化,文章スタイル変化.手段としては self-attention / Transformer や unsupervised pre-training の導入など).
2. 問題提案期 (初期の研究群)
Deep Learning 登場以前は,まず「NLPコミュニティ側から,既にある技術をコンピュータビジョンへも応用する」というイメージで,画像キャプション生成の初期的な研究が行われた.
2010年ごろ当時の画像認識業界では,Pascal VOC (2007以降) や ImageNet データセットでの「物体認識」により,クラス識別結果の単語として,画像中に映る「1つの」物体やシーン名をラベル付けしておいて,その予測器を学習する発想が主であった (AlexNetやVGGNetなど).したがって,まだ「画像の広域的なシーン全体の様子を認識し,それをキャプション文に変換して生成しようという」発想は新しかった.前述の通り,CNN, RNNLM, seq2seqが登場していないこの2節の時代には,画像側とテキスト側を統合・連結したり,自然で多様な文章を生成することはまだ難易度も高かったゆえ,優秀なトップ研究者以外は,Vision-Langauge問題には手を出しづらい時代であった (逆に言うと,オープンソース化と,各ネットワークのコモディティ化が激しい今の時代は,全員同じような道具が容易く使える幸せな時代ではある.その分,差別化が難しくなったが).
2.1 単語グラフから,テンプレート文を利用して生成する手法
画像キャプション生成の初期は,画像中の「主語」や「動詞」や「シーンの様子」から構成される単語グラフを生成し,テンプレートキャプション文の空きスロットに,それらのグラフ中の各単語を当てはめる手法が提案されていた [Farhadi et al., 2010], [Kulkarni et al., 2011].2節冒頭で述べたように,画像認識側が「単語クラスの識別 (物体認識, シーン認識)」が主流の時代であったので,まずはその延長として画像キャプション生成ができる手法を考えていこうという流れである.従って,その処理手順としては,(1)前半に,画像識別モデルで画像全体や画像の各物体領域の単語ラベルを推定しておき,(2)その後に推定したラベル群とデータセットのテンプレート文から説明文を合成するという,「2ステージ処理」が主流であった.
[Farhadi et al., 2010] は,入力画像からMRFで構造化推論した ⟨object, action, scene⟩ の3単語トリプレットに対し,データセット( 画像 + ⟨object, action, scene⟩ + キャプション文が1セット) 中の,最近傍のトリプレットを検索したのち,最近傍トリプレットに対応するキャプションを最終出力する手法を提案した.
[Kulkarni et al., 2011] は,テンプレート文の空きスロットを,画像検出した単語で埋めるBabyTalkを提案した.BabyTalkでは,以下の3段階で処理を行う:
BabyTalkの処理手順
- 画像中の各物体の <Object, Attribute> のノードをDeformable Part Modelsで検出
- 検出した物体間の位置関係 <relation>を,CRF (Conditional Random Fields)で構造化推定.
- テンプレート文のスロットに推定した各単語を埋めて「<Attribute> 付き物体名と,物体間 <relation> を含んだキャプション文」をグラフ中の <relation> の個数だけ生成する.
ちなみに「Babytalk」と命名されたのは,赤ちゃんの初めて話す文章のような,「テンプレート文の穴埋めによるキャプション生成手法」であることが理由である.
2.2 初期手法の弱点脱却を狙う手法の登場.
2.1節の初期手法の多くは,「データベース中の画像に対応するテンプレート文に頼った手法」であった.しかし,その方向性では,データセットに含まれない単語を組み合わせたキャプションが生成できない.また,テンプレート文と似た文章しか生成できないと制限もある.つまりは,リッチな語彙やフレーズを用いた自然な文章の生成が難しいのが初期手法の課題であった.よって,その脱却を狙って「生成文を多様化することで,自然な文生成を目指す手法」の研究が行われはじめた.
[Kuznetsova et al., 2012], [Mitchell et al., 2012] では,2.1.節の ⟨object, action, object-relation⟩ のラベルも用意したデータセットを用いるのに加えて,シンタックス的に事前に良く整理した木構造を学習時に構築しておきキャプションを生成する.綺麗なシンタックス木が用意されているので,従来よりも効率的かつ自然なキャプション文の生成をおこなえるようになった.
一方,[Ushiku et al., 2011], [Ushiku et al., 2012] は,文中の「フレーズ」単位の処理に着目した,画像-キャプションの共同埋め込み空間上でのクロスモーダル検索で得られたフレーズ群を,キャプションとして1文章に合成する手法を提案した.[Ushiku et al., 2011]では,まず画像認識結果から,画像-キャプション間の クロスモーダル埋め込み空間において,最近傍の <画像-キャプション> ペアをN個検索する.次に,その検索したN個のペアの各キャプションから「画像認識結果に対応するフレーズ」を抽出し,抽出されたフレーズ群から,最終的な画像キャプション文1つを再構築する.このように,中間表現に「フレーズ」を採用したことで,生成キャプション文の多様さと自然さを実現できた.また,2.1節の手法のような各画像への <object, attribute, verb, scene> の中間表現グラフのラベル付けを不要化でき,<画像-キャプション>のペアだけで,データセットを構成できるのも利点である.
更に[Ushiku et al., 2012] では,入力画像側でも複数フレーズを画像認識する発展版が提案された.入力画像から複数キーフレーズを画像認識したのち,それらを文法モデルで校正したのちフレーズ群を文章に合成することにより,複数物体が映る画像でも自然で正しい説明文を生成しやすくなった.
ちなみに,牛久氏の [Ushiku et al., 2011], [Ushiku et al., 2012] のような「クロスモーダル検索空間を用いた画像キャプション生成手法」は,この頃より以前では,正準相関分析を用いて共同埋め込みを学習することが多かった.
それが,ディープラーニングが流行し,(Supervised )Siamese Network / Triplet-loss や,Deep Embedding 手法が登場すると,「image-to-text とtext-to-image間の双方向検索(およびそのためのimage-semantic embedding の学習)」の路線へも,関連・発展していくこととなった.
3. 初期のディープ手法
2012年頃,ディープラーニングが少しずつブームになり始めると,自然言語処理業界では,RNN・LSTM を用いることで,従来よりも自然な文章について単語予測・テキスト認識・テキスト生成できる再帰型ニューラル言語モデルの研究が盛んになった.
そして,機械翻訳の応用を皮切りに,RNNLMを直接2つ繋いで機械翻訳を行う「seq2seq」も登場して流行した.その直後,アテンション機構の登場で,seq2seqが認識・生成できる系列データの幅も広がった.両者を合体させたseq2seq with attentionが,画像キャプション生成にも応用された結果,深層学習以前(2節)では苦戦していた「生成文の人間らしさ(自然さ)」を,以前より楽に,獲得できるようになった.また, DNNを用いているので,データセット量を増やして「モデルをスケールさせる」ことも,以前より容易となった.
3.1 Show and Tell: まだ視覚アテンションは用いない
まずGoogle から発表された Show and Tell [Vinyal et al., 2015] では,seq2seqの前半RNNをCNNに差し替えることで,「画像キャプション生成に,初めてseq2seqモデルを素直に応用した手法」が提案された.
前半処理では,CNN (GoogLeNet) で画像全体を1つの特徴ベクトルとしてEncodeする.後半では,その特徴ベクトルを入力として,LSTMのRNNLMが1単語ずつキャプション文を生成する.
このseq2seq手法の初導入により,旧来手法を評価値で大きく上回ったうえ,人間が作ったキャプション文のスコアにも近づいた.すなわち,本手法で自然なキャプションをシンプルなseq2seq手法を用いて生成できるようになった.しかし,単純なseq2seqではボトルネック部分で固定表現になってしまい,多様なキャプションを生成するには難があった.
- Pythonで学ぶ画像認識 (機械学習実践シリーズ), 田村 雅人, 中村 克行, インプレス, 2023.
- 第6章 3節 CNN-LSTMによる手法 ~ Show and Tell を実装してみよう (p300~)
3.2 Show, Attend and Tell : 初のseq2seq with attention化
“Show and Tell”のすぐ後に提案された Show, Attend and Tell [Xu et al., 2015] では,”Show and Tell”のseq2seq with attention 版とみなせる手法が提案された.
[Xu et al., 2015] の詳細は,以下の記事の3節「画像キャプショニングにおける seq2seq with attentionの応用」を参照のこと.
“Show, Attend and Tell”は,当時の画像キャプション生成の決定版的な手法となり,その後,本手法を改良した研究がたくさん提案される.その場合,論文名もならって「〇〇, △△ and □□; ~ 」と三段活用になっていることが多い.
- Pythonで学ぶ画像認識 (機械学習実践シリーズ), 田村 雅人, 中村 克行, インプレス, 2023.
- 第6章 4節 アテンション機構による手法 – Show, Attend and Tell を実装してみよう (p315 ~)
4. 物体領域へ注目するディープ手法 (1): 視覚アテンションで,物体領域と対応する単語間をより強く対応づけ.
3.2節の”Show, Attend and Tell”では,視覚アテンション機構により,画像のローカル特徴を生成キャプションの各単語と対応付けさせていた.しかし,キャプション生成で注目したい画像中の情報は,主に<物体> や,その物体の <属性> を示した単語・フレーズのみである (2節の頃と同じ).よって,たとえば英語キャプションの場合だと,冠詞や前置詞などは,明確に対応する画像領域が存在しない単語であり,視覚アテンションによる対応付けが不要である側面もあった.
従って,3節の通り空間的視覚アテンションを使うのは同じであるものの,入力画像で認識できる<object> <attribute> <scene> などの,画像領域に対応部分がある単語だけを,より強くアテンションで対応付けし,そうでない単語(冠詞や前置詞など)は対応付け(アテンション値)を抑えるようにする,手法が提案されはじめる [Lu et al., 2017],[Chen et al., 2017].
[Lu et al., 2017] は,画像キャプション生成向けに特化した適応的なゲート機構である visual sentinel を,visual attention機構と組み合わせる手法を提案した(図2).[Lu et al., 2017] では,言語RNNの予測単語が,画像側へどれほど 「attendすべきか or しないべきか」についても, visual sentinel (2モーダル間でのゲート機構)に学習しておき,生成時に使用する.ゲート機構であるVisual Sentinelが「RNNLMのどの単語に,どのくらい注目するか」の調整を担当する.視覚空間アテンションのみ使用する場合と比べると,「言語モデル側の各単語が画像中に接地されているかの度合い(visual grounding 度合い)」をより加味できているモデルを学習できる.これにより,画像との対応関係にあまり寄与しない単語群を無視でき,逆に物体や属性など画像上に対応領域が現れるはずの単語はVisual Attentionの重みを強くできる,適応的なvisual-word間アテンションを構築した.
[Chen et al., 2017] は,空間方向アテンションとチャンネル方向アテンション(Channel-wise attention)の双方を掛け合わせて用いる手法を提案した.旧来の空間アテンションは,画像CNNの最後出力した特徴マップ1つに対して,単一の空間アテンションマップを推定するものであった ( 例:[Xu et al., 2015]のShow, attend and tell など.3.2節) .それに対し,[Chen et al., 2017] では,CNN特徴マップの各チャンネルに対して,個別の異なる空間アテンション値を推定することを提案した.これにより「各単語の意味に対応した,各層後の特徴マップ中の,チャネル毎の空間アテンション」を学習することができ,より緻密でかつ単語の意味に対応した「特徴マップ上の注視」を行えるようになった
※ ちなみにこの時期,チャンネル方向アテンションは,他の様々な問題設定でも頻繁に提案・応用されて流行していた.SE-Netのあとに空間・チャンネル方向に分離したアテンションが流行るが,この研究[Chen et al., 2017]はその空間・チャンネルアテンションのさきがけの1つである .
5. 物体領域へ注目するディープ手法 (2): 物体領域と物体単語の明示的な対応づけ.
この頃,Faster R-CNN [Ren et al., 2015]の登場以降,あらゆる画像から,安定して物体検出ができるようになり始めた.これに伴い,2節の手法がDPMによる物体検出を応用していたのと同じく,「物体検出器 (Faster R-CNN)で検出した領域の物体ラベルから,直接言語モデルで文を生成する」明示的な物体バウンディングボックス-単語間の対応付けをおこなうDeep画像キャプション生成手法が増えていく.
3~4節の手法では,主に画像の(全体 or 局所の)特徴ベクトル ( + 画像特徴ベクトルを,視覚アテンションで重み付けしたコンテキスト特徴ベクトル) が文章生成LSTMの入力であった.それに対して5節の各手法は,物体検出した各領域を,言葉やフレーズに変換し終えてからLSTM + 視覚アテンションにより文章生成を行う.
5.1 学習時に <物体領域-単語> 間を対応付け
[Karpathy et al., 2015] は,<物体領域-単語> 間で位置合わせ済みの画像キャプション生成手法を提案した.画像からRegion CNNで検出した物体領域の画像表現と,キャプション文を双方向LSTMに通したあとの各単語表現をそれぞれ計算しておく.そして,それらの<領域画像表現 – 単語表現> 間の最適な対応付けを,データセット全体からアテンションで学習・位置合わせ(alignment)しておく.これにより,入力画像が入ってきたときに,物体領域に対応する単語を,それぞれ明示的にキャプション中に生成できやすい学習が行える.
ここでは,代表例としてUp-Down [Anderson et al. 2018]と Neural Baby Talk [Lu et al., 2018] を紹介する.
5.1.1 Bottom-up and Top-Down Attention (Up-Down)
Up-Down [Anderson et al. 2018] は,ボトムアップ/ トップダウンの両方の画像情報に対して,視覚アテンションを学習するVision-Language向けネットワークを,画像キャプション生成とVQAの2タスク向けに提案した.
従来の画像キャプション生成やVQA手法でのアテンションの活用には,以下の2路線があった:
- [Bottom-up式 局所画像特徴]
- CNNバックボーンからボトムアップ特徴マップを計算し,画像の各局所グリッド領域の表現(Bottom-up局所特徴)への局所グリッドごとのアテンション係数を学習する.
- [Top-down式 局所画像特徴]
- Faster R-CNN で得られる領域提案内の,(トップダウンな)ROI Pooling特徴(Top-down領域特徴)に対して物体ごとのアテンション係数を学習する.
1, 2の路線で用いるアテンションは,お互いもう片方の手法がアテンションに用いていない画像情報同士であるので,「互いの弱点を埋められる相互補完性」が存在している.
そこで,1, 2の両方のアテンションを同時に使うことを提案したのが Up-Down [Anderson et al. 2018] である.この手法は,ベンチマークで優勝したこともあって,その後「各局所グリッドだけでなく,物体領域にも,アテンションで単語を対応づけする手法」として,しばらくの間,画像キャプション生成とVQAの各研究でのベースライン手法となった.
また,2.1 節の Baby Talk [Kulkarni et al., 2011] の「テンプレート文のスロットを穴埋めする手法」をDeep Neural Networkで実現し,スロット語彙の豊富化の改善を行なった Neural Baby Talk [Lu et al., 2018] が提案された.2.1節では「テンプレート文のスロット(空白単語)を,画像認識結果のラベルで穴埋めする」手法としてBaby Talkを紹介したが,それは,Deep Learning 以前にも,画像中の物体と言葉を明示的に対応づけする手法が存在していたということである.
5.1.2 Neural Baby Talk: ディープ版の Baby Talk
Neural Baby Talk [Lu et al., 2018] は,過去のテンプレート手法 [Kulkarni et al., 2011] などと異なり,スロット付きテンプレート文自体も RNN with アテンション で生成するように学習するネットワークである.その上,各検出領域とスロットの間の対応関係は Pointer Networks で学習しておく.この仕組みにより,物体検出領域クラスの単語を,スロットに自動的にあて埋める形で,キャプション生成ができるようになる.
しかし,当時のFaster R-CNNなどのDeep物体検出器が出力する数10クラスの物体クラスカテゴリーは,例えば「dog」のように大まかなカテゴリまでしか推定できなかった.よって,これ以上単語がfine-grained化することには対応できなかった(犬の中でもどの犬かまで識別する).そこで,物体検出器の推定したクラスをCOCOデータセットのfine-graiendな 413物体クラスにrefineして変換するために, Region Poposal特徴とfine-grainedクラス単語のGloVeベクトルの2つを入力とした,fine-grainedクラスの予測MLPも追加した.この仕組みにより,最終的なキャプションはテンプレート文のスロットにfine-grainedなクラスを埋め込んだ文として生成できるようになった.
※ 現在2021年では,COCOデータセットなどから413クラス物体検出器を直接学習できるので,この手法の工夫は必ずしも必要ないことに注意.ただし,途中で一旦「dog」という種別全体の中間結果が出力されていること自体は悪くないと個人的には思う.
5.2 Dense Captioning : 領域ごとに個別のキャプション文を生成.
従来は,画像一枚全体に対してキャプション文を生成していたのに対して, [Johnson et al., 2016] は画像一枚の領域ごとに対応するキャプションを 密に(Dense) 生成する問題設定の「Dense Captioning」を提案した (図3).図3では,右下がこの研究で提案された「Dense Captioning」であり,領域ごとに1文ずつ完結したキャプションを生成する.比較として,左上は画像全体のクラス識別で,右上は物体検出器による領域ごとのクラス識別で,左下は画像全体からのキャプション生成である.従来は,「画像一枚全体を1つのキャプション文で言い表す」という問題設定が主流で,画像キャプション生成は主に取り組まれていた.それをDense Captioningでは,一枚画像内でもそれぞれの(密集した)複数領域において,各領域の内容を言い表すキャプションをそれぞれ独立に生成するようにした.
[Johnson et al., 2016] は2ステージ物体検出の方式に近い解き方を提案している.まずFaster R-CNN にならって,領域検出器を学習する.次に領域から,キャプションを生成する候補領域を検出する.最後に,入力画像をCNNバックボーン(Encoder)で順伝搬した結果得られた特徴マップのうち,該当領域の特徴部分に相当するCNN特徴だけ抽出した特徴ベクトルを入力として,LSTM言語モデル(Decoder)により,その領域のキャプションを推定する.
6. まとめ
この記事では,画像キャプション生成の「(1) 基本編」として,初期の研究群を紹介した.深層学習流行前の初期の研究から,Deep 登場後のseq2seqやアテンション機構に基づく研究や,Deep時代の物体検出技術に頼った「物体検出領域を明示的に単語に対応づけする手法」へと発展していった流れを,この記事では紹介した.
関連書籍
- Pythonで学ぶ画像認識 (機械学習実践シリーズ) 【📖紹介記事】, 田村 雅人, 中村 克行, インプレス, 2023.
- 第6章 画像キャプショニング p290 ~ p344
- 3節 CNN-LSTMによる手法 ~ Show and Tell を実装してみよう (p300~)
- 4節 アテンション機構による手法 – Show, Attend and Tell を実装してみよう (p315 ~)
- 第6章 画像キャプショニング p290 ~ p344
References
- [Anderson et al., 2018] P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang. Bottom-up and top-down attention for image captioning and vqa. In CVPR, 2018.
- [Farhadi et al., 2010] A. Farhadi, M. Hejrati, M. Sadeghi, P. Young, C. Rashtchian, J. Hockenmaier, and D. Forsyth. Every picture tells a story: Generating sentences from images. In ECCV, 2010.
- [Johnson et al., 2016] J. Johnson, A. Karpathy, and L. Fei-Fei. Densecap: Fully convolutional localization networks for dense captioning. In CVPR, 2016.
- [Karpathy et al., 2015] A. Karpathy and L. Fei-Fei. Deep visual-semantic alignments for generating image descriptions. In CVPR, 2015.
- [Kulkarni et al., 2011] Babytalk: Understanding and generating simple image descriptions.
- [Kuznetsova et al., 2012] P. Kuznetsova, V. Ordonez, A.C. Berg, T.L. Berg, Y. Choi, Collective generation of natural image descriptions. In, ACL 2012.
- [Lu et al., 2018] J. Lu, J. Yang, D. Batra, and D. Parikh. Neural baby talk. In CVPR, 2018.
- [Mitchell et al., 2012] M. Mitchell, X. Han, J. Dodge, A. Mensch, A. Goyal, A. Berg, K. Yamaguchi, T. Berg, K. Stratos, H. Daumé, III, Midge: generating image descriptions from computer vision detections, In EACL, 2012.
- [Ushiku et al., 2011] Ushiku, Y., Harada, T. and Kuniyoshi, Y. Understanding images with natural sentences. In ACM MM, 2011.
- [Ren et al., 2015] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: towards real-time object detection with region proposal networks. In NeruIPS, 2015.
- [Ushiku et al., 2012] Ushiku, Y., Harada, T. and Kuniyoshi, Y. Efficient image annotation for automatic sentence generation. In ACM MM, 2012.
- [Vinyals et al., 2015] Vinyals, O., Toshev, A., Bengio, S., Erhan, D. Show and tell: A neural image caption generator. In CVPR, 2015.
- [Xu et al., 2015] Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R., Bengio, Y.: Show, attend and tell: Neural image caption generation with visual attention. In ICML, 2015.
- [Yao et al., 2010] B. Z. Yao, X. Yang, L. Lin, M. W. Lee, and S.-C. Zhu. I2t: Image parsing to text description. Proceedings of the IEEE, 98(8), 2010.
外部参考リンク
- Slideshare: 画像キャプションの自動生成 (2016), Yoshitaka Ushiku.
- Slideshare: Deep Learning による視覚×言語融合の最前線 , Yoshitaka Ushiku.
- Medium: Arial Periskoによる「Up-Down」論文の解説記事