1. CUB-200-2011 データセットとは [概要]
CUB-200-2011 データセットとは,鳥画像に,詳細に分類した200種類の鳥のクラス名と,15パーツの属性がアノテーションされた,物体認識あるいは属性認識に使用できる,細粒物体認識(fine-grained object recognition)むけの画像認識データセットである [Wah et al., 2011].正式には「Caltech-UCSD Birds-200-2011」と名付けられており,元のCUB-200 [Welinder et al., 2010]を翌年拡張したものが,このCUB-200-2011である [Wah et al., 2011].CUB-200-2011データセットは,細粒物体認識(fine-grained object recognition)や,細粒画像検索,パーツの属性認識に,画像の深層生成モデルなどの研究目的で,よく使われてきた.
CUB-200-2011 Dataset | Paper With Code
CUB-200-2011 は,11,788枚の画像から構成されている.各画像には,200種類の鳥のクラスラベルに加えて,鳥の各パーツ(Head, Belly, Tailなど)ごとに,パーツの「属性(attribute)」の2値ラベル(3節)がアノテーションされている.
また,粒度が細かいクラス分類であるので,図1のように,同じ「Wren(ミソサザイ科)」の中でも,「House Wren」「Rock Wren」「Marsh Wren」「Winter Wren」など(計7種)が,異なる個別クラスとしてCUB-200-2011収録されている.
この「車や鳥など,同じAという物体クラスのなかでも,100~200クラスに詳細に画像分類しよう」という細粒物体認識の発想は,当時の画像認識の最先端研究を先導していた,CaltechのPerona研究室から出てきた問題設定(もとい画像認識タスク)である.この当時(2008~2012年ごろ)のPerrona 研究室では,古典的な物体検出で無双していたPitor Dollar氏が博士学生として研究していた頃でもあり,彼は歩行者検出などについても業界をリードしていた.
CUB-200-2011は,登場当初は元の技報 [Wah et al., 2011] で提案された目的の通り,細粒物体認識や,属性認識に使用されていた.それが深層学習時代に入って以降は,画像特徴埋め込み(Visual Feature Embedding)や, CNNネットワーク説明 (explanation) むけにも,標準的なベンチマークもなっていった.
また,[Reed et al. 2016]では,CUB-200-2011の各画像に対して,元の属性やパーツ情報の画像キャプションが追加され,データセットが拡張された.これにより,入力文からの画像生成であるText-to-Imageの,StackGAN [Wang et al., 2016]などでも,キャプション付きCUB-200-2011が使用されるようになった.Paper with Codeに合わせて,以降のこの記事では,拡張された「キャプション付きCUB-200」の話は割愛する.
2. CUB-200-2011 各画像の正解ラベル
CUB-200-2011データセット(図1)の各「(1羽の)鳥画像」には,以下の正解ラベルがアノテーションされている:
- 画像上に写っている鳥の,200種類の「クラスラベル」.
- 鳥の領域の「バウンディングボックス」
- 15個の「パーツの位置座標(キーポイント)」(頭,腹部,しっぽなど)」(図2)
- 各パーツの,312個の「属性」の2値ラベル (例:嘴や尻尾の種類,形,色など) (表1)
これらの正解を用いることで,細粒度な鳥クラス識別と,パーツの属性のクラス識別について,画像認識研究を行うことができる.
2.1 クラス間の階層関係はまだ見ていない
ちなみに,図1のように同じ科でも多種の鳥が,多く含まれているが(例:Goldfinch系の中でも,American Goldfinch とEuropean Goldfinch) ,それらの「鳥クラス間の階層的ツリー関係」まではラベルとして提供されてはいないことに注意.
CUB-200は2010年, 2011年の登場であるの,まだImageNetが登場したくらいの時期であり,クラス数を200まで増やしただけでも最先端であったので,階層的クラス関係の使用までは,まだexploreされていなかった時期である.
3. CUB-200-2011 のパーツと,属性ラベル
図2は,CUB-200-2011の各画像に付与されている,パーツの位置の一覧を示したものである.元の論文中の図を,私の方で描き直して,各パーツ名も見やすくしたものである.図2(a)は,全身のパーツであり,図2(b)はその中でも頭部領域の各パーツを示したものである.
元論文[Wah et al., 2011] 中のFigure 2 (b)に表で示されている「パーツごとの属性リスト」を,以下の表に,こちらで日本語訳も加えたかたちで列挙しておく.
パーツ | 属性 |
---|---|
Beak (尖ったくちばし) | HasBillShape (扁平型の形状あり) HasBillColor (扁平型の色あり) HasBillLength (扁平型の長さあり) |
Belly (腹部) | HsBellyPattern (お腹に模様あり) HasBellyColor (お腹に色あり) |
Throat (喉) | HasThroatColor (喉に色あり) |
Crown (頂点) | HasCrownColor (頭頂部にいろあり) |
Tail (尻尾) | HasUpperTailColor (尻尾上部に色あり) HasUnderTailColor (尻尾下部に色あり) HasTailPattern (尻尾に模様あり) HasTailShape (尻尾に形状あり) |
Back (背部) | HasBackColor (背中にカラーあり) HasBackPattern (背中にパターンあり) |
Forehead (額) | HasForeheadColor (額に色あり) |
Nape (うなじ,後ろ側の首筋) | HasNapeColor (うなじに色あり) |
Eye (眼) | HasEyeColor (眼に色あり) |
Wing (翼) | HasWingPattern (翼に模様あり) HasWingColor (翼に色あり) HasWingShape (翼に形状あり) |
Breast (胸部) | HasBreastPattern HasBreasColor |
Bird(=all parts) | HasSize (サイズあり) HasShape (形状あり) |
Body (体幹部) | HasUndePartsColor (下部に色あり) HasUpperPartsColor (上部に色あり) HasPrimaryColor (主要な色あり) |
※ 英語のくちばしは,細長い鋭いものをbeakといい,扁平型の平たいものをbillと呼びわける.これをCUB-200では,「属性が全てOFFなbeak / 属性がどれかONならbill」というスイッチ切り替え形式で,ラベル付けしている.
ちなみに.前作のCUB-200 [Welinder et al., 2010] では,野鳥ガイドのサイトにそって,各鳥の25種類の属性的特徴がラベルづけされていた.それを,CUB200-2011 [Wah et al., 2011]では,パーツ位置と関連付けつつ,厳選したものがラベルづけされるようになった.
4. 日本独自版も必要?
このデータセットに限らない話だが,北米の大学(Caltech)で作られたデータセットであるので,「北米の野鳥が中心」であることは
画像キャプション生成の記事の後半でも管理人は論じているが,「アノテーションされている画像の記述が英語のみで,日本語と関連づいていない」という点を,我々の業界ではまったく考えずに研究しがちである.本来はCUB-200-2011も,世界中全ての鳥をカバーしたものや,国内やアジアの野鳥家むけの画像データが追加でほしいものである.
一方で,このCUB-200-2011を用いた初期研究で応用レベルまで細粒物体認識の研究が進展したおかげで,近年では植物や虫に鳥の種類などの細粒画像認識を行う「スマートフォンアプリ」は,多くの会社からリリース済みである.従って,「日本でしか見られない対象むけの,細粒画像認識データセット」が,(2020年以降の)現代の研究者むけに必要かと言われると,微妙なところではある.つまり,細粒物体認識システムは,今では「商用向けに作るほうが普通」である.実際のところ大手IT企業は,(自社サービスで収集した)自作した画像データセットを,研究者にオープン or 有料貸与して,アカデミックよりの研究者に,改善研究を進めてもらう流れのほうが主流であろう.
5. まとめ
この記事では,200種類の鳥を分類するCUB-200-2011データセットを紹介した.CUB-200-2011には,鳥領域のバウンディングボックスとパーツ位置情報とパーツ属性クラスも付与されており,細粒物体認識を行う際に、それらの情報も活用できる.また,キャプション付きCUB-200-2011[Wang et al., 2016] が登場して以降,テキスト入力からの物体画像生成や物体画像スタイル変換の研究などでも,このデータセットがよく使用されるようになった.
また,3節では,CUB-200-2011が,北米の環境に特化したものであり,日本の鳥向けの独自データセットも欲しいであることを論じた.しかし,当時の基礎研究むけの初期の頃と違い,いまではアプリが乱立しているくらいビジネス応用段階にあるので,鳥以外でも,研究者向けのオープンな独自データセットは必要がない対象が多いことを述べた.
関連書籍
- Probabilistic Machine Learning: An Introduction, Kevin Patrick Murphy , MIT Press, 2022.
- 画像認識(機械学習プロフェッショナルシリーズ),原田達也,講談社,2017.
References
- [Wah et al., 2011] C. Wah,S. Branson,P. Welinder, P. Perona, and S. Belongie. The Caltech-UCSD Birds-200-2011 Dataset. Technical report, 2011.
- [Wang et al., 2016] X. Wang and A. Gupta. Generative image modeling using style and structure adversarial networks. In ECCV, 2016
- [Welinder et al., 2010] P. Welinder, S. Branson, T. Mita, C. Wah, F. Schroff, S. Belongie, and P. Perona. Caltech-UCSD Birds 200. Techni- cal Report CNS-TR-2010-001, California Institute of Technology, 2010.