PASCAL VOC 2007 データセット

1. PASCAL VOC 2007 データセット とは [概要]

PASCAL VOC 2007 データセットは,画像認識向けチャレンジであるPASCAL VOC (Visual Object Classes)のうち,2007年度のチャレンジにおいて提供されたデータセットである [Everingham et al., 2010].識別対象となる20クラスの物体のうち,いずれかの物体が映った画像が約1万枚用意されている.また,物体認識物体検出の2タスク用に,それぞれ,クラスラベルと物体領域のバウンディンボックスが正解アノテーションとして提供されている.

Paper With Code : PASCAL VOC 2007

この記事では,PASCAL VOC 2007 データセット について紹介する(2.1節).また,VOC 2007チャレンジがどのような点で,その後よく使用される物体検出データセットとなったかについてまとめる(2.2節).また,VOC全体の歴史も,簡単にだけ眺めておく(3節.のちに親記事に移動予定)

VOC 2007 では,画像からの物体認識の主題は,今までの技術では精度よく検出できなかった「多数のクラスの物体検出」であった.当時のコンピュータビジョン業界における単一クラスむけ物体検出モデルむけには,VOCデータセットと,歩行者検出に特化したCaltech 256データセットの2つが双璧をなしていた.実際,VOCとCaltech256の2つを主要チャレンジとして,当時のVisual Recognition チャレンジは開催されていた(例:VOC2007 workshop).

VOCチャレンジの最終年である VOC2012と,その後ディープラーニング時代でVOCデータセットが未だに使われている件については,以下の記事を参照:

1.1 VOC 2007 の2タスク

PASCAL 2007では,以下の2タスクが対象で,そのアノテーションが提供されている:

  1. 物体認識 : 主要な20種類の物体クラス, 2.1節)
  2. 物体検出:1と同じ20クラスについて,物体バウンディングボックス検出)

この2007年度から,十分なデータ量(画像1万枚程度)と十分なクラス数(20物体クラス)のデータになり,VOC 2005, 2006 の成功を経て,コンペティションも本格化(激化)した.これにより,VOC2007(特に物体検出タスク)が,画像認識の最先端の主役のデータセットとして使用され始めることになる.

物体検出タスク勝者の「Deformable Part Models (DPM, 変形可能パーツモデル群)」の登場のインパクトが大きかったため,VOC 2007 はDPMをベースライン手法にみなして性能比較を行いたい物体検出研究では,頻繁に用いられることとなった(2.2節で詳しく).

2節では,この「VOC 2007の2タスク」に対して,物体クラス20種類の紹介(2.1節)と,画像の見え方のバリエーション(2.2節)について紹介する.

2.PASCAL VOC 2007 のデータ構成

全体で9,963画像がTrain/Validation/Test分割で提供され,合計24,640個の物体領域がアノテーションされている.2007から物体検出タスクが導入され,アノテーションも完全公開になった.一方で,まだテスト用評価サーバーを提供する文化が確立されていなかった時代で,2007まではTestスプリットもアノテーションが公開されていた.逆に言うと,今どきのテストの正解は提供・公開されないベンチマークデータセットとは異なり,手元でテストまで行えるので使いやすいデータセットではある.

また,VOC 2007から物体領域の「Truncation flag(一部画像外に出てはみ出している)」のアノテーションが新たに登場した.これにより,画像中には一部しか映っていない物体に対する検出の研究が本格的になった.

一方で,VOC 2007時点では「Occlusion flag (VOC 2008から開始)」がまだ存在せず,(当時の技術では高難易度なので)物体間で遮蔽している状況での物体検出は,まだ積極的には取り組まれていなかった頃である.つまりCOCOやOpen Imagesなど,現代のディープラーニング時代のデータセットと違い,複数の密に配置されて,お互い遮蔽もしている物体の検出は,まだ本格的には取り組まれていなかった時代であった(※ それでも「馬に乗った人」画像などは,既にVOC 2007で対象ではあったが).

そもそも物体検出がうまくできない物体クラスも多かった時代なので(2.2節),VOCは「1画像に1物体,複雑な物体間の遮蔽はなし」で集められた画像群であった.まず一個一個の物体を,きちんと検出できるようにすることが先決の時代であったわけである.

2.1 物体クラス20種類とそのタクソノミー

VOC 2007 物体クラスのタクソノミー
図1. VOC 2007 物体クラスのタクソノミー.
青色文字が,アノテーションに用いられている物体クラス(計20種類)

VOC 2007では,4つの主要物体カテゴリー(乗り物,家具,動物,人)の中から選ばれた合計20クラスの,各画像の物体領域についてアノテーションされている(図1).VOC 2007からこの20クラスに倍増された.その20クラスのタクソノミーについては, [Everingham et al., 2010] のFigure 2 にツリー式で可視化されている(図1).図1は,私のほうで,その図を日本語にして色付けも行い,後々何度も見かえしやすくしたものである.

また,物体領域について,バウンディンボックスの正解領域もアノテーションされており,物体検出器の学習にも使用できる.

2.2 見え方のバリエーションの増加と勝者DPM

以前のVOC(VOC 2005, VOC 2016)と比べると,物体検出映っている物体の多様性が増した(2005-2012の各年の違いは,VOC全体のホームページの下部に,表としてまとめられている).

例えば,Bicycle クラス1つをとっても,「正面から映った画像」「横から映った画像」「メーカーAの自転車/メーカーBの自転車」という風に,多様性がある.しかし,当時(2016年ごろ)の物体検出は,[Haar-like特徴+ Boosting]もしくは [HOG+SVM] が主流であった(※ 詳しくは物体検出の記事序盤を参照).これらの従来の,「単一物体クラス検出」の技術では,VOC 2006 や VOC 2007で取り組む「10~20種類の物体の検出」に対応するのが難しかった.その問題に対する研究を加速させるため始まったのがVOCチャレンジであるとも言える.

そんな中,VOC 2007 では,Deva Ramanan 先生らの,Deformable Part Models(DPM, 変形可能パーツモデル群)が,チャレンジの勝者となった.DPMは,各クラス内の見え方の多様性に対応するために,部分パーツ検出器を用意して「(locally) deformable(局所変形可能)」というアイデアを物体検出向けに初提案し,[HOG+SVM] にPictorial Sturctureを加える物体パーツ群による見えのモデル化を提案した.

この「deformable」という発想は,のちに「deformable convolution / deformable attention」 のアイデアの元にもなっているなど,「フィルタする相対位置を,ローカル領域内で適応的に変形させよう(変形を学習しておこう)」という発想の元祖であるといえる.よって「VOC 2007の登場と,その勝者DPM」は,画像認識の発展における非常に大きな分岐点であったと,管理人としては考えている.

彼らのラボは,その後5年ほど,DPMの発展モデルを用いて,顔表情追跡や,人物姿勢推定 (Flexible-Mixtures-of-Parts)などの研究でも無双し,しばらく彼らのラボが「(パーツベースの)物体検出」業界で,トップとして君臨することになった.

2.3 物体検出領域のアノテーションポリシーの,VOC以前との違い

2.2節で述べた,単一物体検出時代は,学習する際に,物体ぎりぎりのボックスではなく,周辺の背景領域を20%ほど含むことが,best practice とされていた.実際,HOGの元論文で提供されていたINRIA personデータセットでは,人物バウンディンボックスから縦横の20%程度を左右上下に増やした少し大きなROI領域をアノテーションし,そのボックス領域からHOGを計算して,物体識別モデル(Boosting or SVM)を学習していた.それが,VOCチャレンジ以降は,余計な余白を左右上下には含まず,バウンディンボックスどおりを,物体検出の正解としてアノテーションするのが普通になった.

現代の,ディープ検出器向けのCOCOやOpenImagesなどでも,VOCと同じく「バウンディンボックスどおりの物体領域」をそのまま正解アノテーションとして用いている.ただし, CNN登場以降は,2D畳み込み層などでバウンディンボックス外の背景領域まで特徴ベクトル化して予測に考慮している意味では,手法としてはVOC以前の「物体周辺の背景特徴も学習しておく」に戻ったとも言える.

3. VOC全体(2005-2012)の大まかな歴史

(3節は,VOC全体の親記事を書いたのちは,そこへ移動予定)

VOCは2005-2012で開催された画像認識チャレンジである.ディープラーニング世代で開催・提供された,ImageNetCOCOのように,画像認識研究者が中心的に用いていたデータセット・チャレンジが,当時のVOCである.従って,VOCが最先端の画像認識(とりわけ2007頃は,物体検出)の性能をベンチマーキングする役目を果たしていた.

各年のVOCの中でも,とりわけこの記事の「VOC 2007」と,最終開催だった「VOC 2012」の2つが,それ以降の画像認識系のディープラーニング研究でも使用されることが多い.以下の2つのタスク(3.1),(3.2節)をベンチマーキングする目的で,VOC2007, VOC 2012が使用されることが多かった.

3.1 物体検出での使用

VOC 2007から物体検出向けにの学習データとしてもしっかりしたデータ量で使用できるようになったことから,事実上この VOC 2007が,しばらくベンチマークとなりつづける.実際,ディープラーニングで解くのが主体になってからも,その初期手法であるFaster R-CNNYolo, SSDでは,VOC2007と,(VOCではデータが一番リッチな) VOC2012でもベンチマークされていた.

そもそも,前述のパラダイムシフトを起こしたDeformable Part Modelsが勝者であったことから,ベースライン手法としてDeformable Part Modelsと結果を比較したい研究は,自動的にVOC 2007を使うこととなった.こうして,Deformable Part Modelsとセットで,VOC 2007 は数多くの物体検出の研究で,その後用いられることとなった.

3.2 セマンティック・インスタンスセグメンテーションでの使用

VOC 2011や2012の頃になると,セグメンテーションがタスクとして追加されており,各物体の前景セグメンテーションマスクも,教師データとして提供されている.ディープラーニング時代に突入すると,FCNや,DeepLab v1などの,セマンティックセグメンテーションインスタンスセグメンテーション初期研究でVOC 2012 で用いられた.そして,VOCだと大量パラメータのディープCNNにとっては,学習データ数が足らないので,データ総数をスケールさせた「COCOデータセット」が登場することに繋がったとも言える.

3.3 今でも使いどころはある?

論文ではあまりみかけなくなった2020年以降でも,練習・プロトタイピングには扱いやすいデータセットであると,管理人は考える.それ以降に,登場した各種画像データセット(COCOADE20Kなど)に比べると,規模感が小さいうえに,遮蔽や物体の映り方の多様性が少ないので,データ分布が少し狭い中で試せるからである.

MNISTCIFAR10が,初心者の練習や,中~上級者のプロトタイピングに使いやすいのと同様に,VOCも基礎的なことを試しやすく,未だに使い道がある意味で,存在がありがたいデータセットであると感じる.

References

  • [Everingham et al., 2010] Everingham, M., Van Gool, L., Williams, C. K., Winn, J., & Zisserman, A. (2010). The pascal visual object classes (voc) challenge. International journal of computer vision, 88(2), 303-338.
  • [Everingham et al., 2015], Everingham, M., Eslami, S. M., Van Gool, L., Williams, C. K., Winn, J., & Zisserman, A. (2015). The pascal visual object classes challenge: A retrospective. International journal of computer vision, 111(1), 98-136.

参照外部リンク