1. PASCAL VOC 2012 データセット [概要]
PASCAL VOC 2012 データセットは,画像認識向けチャレンジのPASCAL VOC(Visual Object Classes)のうち,最後の開催であった2012年度に提供されたデータセットである [Everingham 2015].VOCチャレンジはこの2012年で終了したので,以降は ImageNetやCOCOへと研究者達は移行するが,その後も物体検出の研究では,VOC2007と,このVOC2012とよくベンチマークとして実験され結果精度が比較され続けている.
Paper With Code: VOC 2012 Dataset
この記事では,VOC 2012チャレンジの4タスクが何であるかについて整理する(2節).4タスクのうち,よく使用された,物体検出と物体セグメンテーションについて,CNN登場後にどのデータセットに引き継がれていたったかを整理する (3.1節).また,最近でも 「VOC 2012 +2007」の組み合わせが,「少数ラベルのみデータからの学習」で,引き続き使われていることに触れる(3.2節).
VOCで対象とする20物体クラスの詳細については,以下の2007の記事を参照のこと:
2. VOC 2012 の4つのチャレンジ
初期のVOC2007 では,画像認識タスクのなかでも,(1)物体認識 と (2)物体検出 の2つが,主たるチャレンジであった.それに対して,最終回のVOC 2012では,2つのタスク(3)物体の前景セマンティックセグメンテーションと,(4)静止画像からの人物アクション認識が追加されて,計4つのチャレンジが行われた:
- 物体認識 (object classification)
- 物体検出 (object detection)
- セグメンテーション (object segmentation)
- アクション認識 (action classification)
[Everingham 2015] のTable2″Participation in the 2012″ に 4タスクへの参加チームと,(2013年ごろまでの)対応する論文がまとめられている.
3. チャレンジ終了後も使用されるVOC
VOCチャレンジ自体は2012で終了したのだが,引き続き性能を比較するベンチマークとして有用なのもあり,その後も研究でよく使われることとなった.
3.1 ディープラーニングへの移行初期
2012のAlexNetでビジョン業界はディープラーニングに大幅に移行する.その後の2013~2015年あたりまでの時期には,(2)物体検出と,(3)物体セグメンテーションの2タスクでは,引き続きVOC 2012が使われ続けた.
その理由は,まだその2タスクにはVOCしかベンチマークデータセットがなく,CNN向けの大規模データセットが出てきていなかったから,少量のVOCで我慢していたわけである(※ 当然,VOCだとデータが少なくて過学習しているので,それらのVOCでの結果をあまり当てにしてはならない).
よって,もう少しデータ量がスケールした,規模の大きな定番データセットが登場すると,それらに学習用のデータセット差し替えられた.具体的には,COCO (物体検出やインスタンスセグメンテーション),ADE20K (セマンティックセグメンテーション) が登場して,定番化すると,VOCではCNNの研究を行わないようになっっていった.
3.2 「VOC2012 +2007 」の「少数ラベルからの学習」での使用
(2022年8月の)現在でも,VOC2007と2012の2つのデータセットのtrainvalを合体させた「VOC2012 +2007 」の組み合わせが,いまだに物体検出の研究では「少数ラベルからの学習」の実験で,よく用いられる.
たとえば,事前学習済みモデルを用いて,VOC2012 + 2007 を下流タスクで物体検出したりされる [Chen et al., 2021].また,「20クラス構成は同じだが,VOC2007とVOC2012は別のデータ群である」ことを活かして,半教師有り学習 でも活用されている [Li et al., 2022] [Guan et al., 2022].
3.1節で書いたことを繰り返すが,VOCはデータセット規模がさほど大きくないので,これらの場合も,過学習になっている良くない実験設定になっていないかは注意するべし.
4. まとめ
最終年のVOCチャレンジのデータセットである VOC 2012について整理した.
また,3節では,VOCチャレンジの結果報告論文の[Everingham 2015] ではまとめられていない,「ディープラーニング流行後のVOC 2012の使用状況」について,簡単にだけ紹介した.
関連書籍
- 深層学習 改訂第2版 (機械学習プロフェッショナルシリーズ) 岡谷貴之,講談社,2022.
- Probabilistic Machine Learning: An Introduction, Kevin Patrick Murphy , MIT Press, 2022.
- 画像認識(機械学習プロフェッショナルシリーズ),原田達也,講談社,2017.
References
- [Chen et al., 2021] Chen, Tianlong, Jonathan Frankle, Shiyu Chang, Sijia Liu, Yang Zhang, Michael Carbin, and Zhangyang Wang. “The lottery tickets hypothesis for supervised and self-supervised pre-training in computer vision models.” In CVPR, 2021.
- [Everingham 2015] Everingham, M., Eslami, S. M. A., Van Gool, L., Williams, C. K. I., Winn, J. and Zisserman, A. “The PASCAL Visual Object Classes Challenge: A Retrospective”, International Journal of Computer Vision, 111(1), 98-136, 2015.
- [Guan et al., 2022] Guan, Dayan, Jiaxing Huang, Aoran Xiao, and Shijian Lu. “Unbiased Subclass Regularization for Semi-Supervised Semantic Segmentation.” In CVPR, 2022.
- [Li et al., 2022] Li, Aoxue, Peng Yuan, and Zhenguo Li. “Semi-Supervised Object Detection via Multi-Instance Alignment With Global Class Prototypes.” In CVPR, 2022.