ADE20Kデータセット

記事を共有する:

1. ADE20Kデータセットとは [概要]

ADE20Kデータセットとは,セマンティックセグメンテーション用のシーン画像分割モデルを学習する目的で構築された,ディープラーニング向けの大規模画像データセットである [Zhou et al., 2017], [Zhou et al., 2019] .その中身は,MITの歴代シーン画像データセットを集約した,20,000枚レベルの「シーン中心(scene-centric)画像」から構成されている.データセット公開後は,セマンティックセグメンテーションでシーン画像を分割する際のベンチマーク目的に,広く研究で用いられている.

paper with code | ADE 20K Dataset

論文中では,以下の2カテゴリに,各クラスを分類している;

  • (1) 物体(Object) [加算,インスタンスとして区切れる]:
    • Person, car, chairなど
  • (2) モノ(stuff) [不加算,インスタンスとして区切れない]:
    • floor, wall, ceilingなど
ADE20K データセット サンプル画像(HPから引用)
図1. ADE20K データセット (HPから引用)

ADE20K データセットでは,「1. 物体」,「2. 物体のパーツ(part)」,「3 [不加算な]もの(stuff)」の3区分の,計150種類のクラスが,詳細に画素単位でアノテーションされている(図1).これは,COCO データセットのCOCO-panopticでも同様であり,物体に加えて,stuffへも画素単位のラベルがアノテーションされている.

2. ADE20K データセットの構成

MITのAntonio Torralba氏の研究チームが,これまで公開していたデータセットの続編として,ディープラーニング向けに2万枚の学習データ規模になるように再編成したのが,ADK20K データセットである(実際はtrainは,約2.5万枚から構成される).

ADE20Kは,彼らのMITチームが既に提案・公開していた LabelMe [Russell et al., 2008]と, SUN データセット [Xiao et al., 2010],Places データセット [Zhou et al., 2014]の画像群から構成されている.

合計150クラスについての画素単位の正解アノテーションが提供されている.その150クラスは,SUNデータセット [Xiao et al., 2010] とPlacesデータセット [Zhou et al., 2014]で定義されていたクラスをカバーするかたちで,

2.1 登場までの経緯

ADK20Kの論文 [Zhou et al., 2017] 中のTable 1 では,セマンティックセグメンテーション用の(当時の)各データセットで,物体インスタンスや,パーツインスタンスがどれくらいの総数が提供されているかを比較しており,参考になる.

2.2 画像へのアノテーション

LabeleMe [Russell et al., 2008] が提供するアノーテーションソフトウェアUIを用いて,ADE20Kでは,1人のエキスパートワーカーによりアノテーションされた正解ラベルが,各画像に提供されている [Zhou et al., 2017 , 2.2節].論文中冒頭1節でも,「Amazonメカニカルturkなどで素人に頼んだ場合よりも,非常に丁寧で詳細なアノーテーションが実現できた」と主張している.

※ 2020年以降は,訓練されたスペシャリストが画像アノーテーションを提供する企業も多くなってきた.また,MLOps用のアノテーションを便利に行うためのツールセットのサービスも増えており,自社内でアノテーションをじっくり行う敷居も下っている.よって,この主張は,あくまで2016~2017年のアノーテーション作業が行われた当時に成り立つ主張であることに注意.

また,インスタンス単位で区切れる「物体(Object)」と平たく分布している「もの(stuff)」を,区別している点が特徴である.更に,各物体は「物体(obejct)と,その物体部位(object part)」にわけられて細かくアノーテションされており,たとえば Pascal VOC 2007COCOでは無かったパーツ単位のラベルまで学習できるようになったのは大きいことである.

2.3 その後

ADE20Kの論文 [Zhou et al., 2017]では,シンプルベースラインとして, Object分割ネットワーク以外に,Stuff分割ネットワークと,Part分割ネットワークをわけたのち,それらの推定マップ同士を最後に合成する3ストリームネットワークを提案した(論文中 Figure 6).

このADE20Kがarxivに登場した2016年の後すぐに,PSPNet (2017)が提案され,これまでより複雑なシーン画像群であるADE20K向けでも,かなりの分割精度が出せる最初の可能性が示された.同年には,DeepLab v3 も登場する.

以降,ADE20Kは,LVISデータセットやCityscapseなどとともに,セマンティックセグメンテーションのうち,シーン画像分割向けの標準的ベンチマークとして使用されている.

References

  • [Russell et al., 2008] B. C. Russell, A. Torralba, K. P. Murphy, and W. T. Freeman. LabelMe: a database and web-based tool for image annotation. In IJCV, 2008.
  • [Xiao et al., 2010] J. Xiao, J. Hays, K. A. Ehinger, A. Oliva, and A. Torralba. Sun database: Large-scale scene recognition from abbey to zoo. In CVPR, 2010.
  • [Zhou et al., 2014] B. Zhou, A. Lapedriza, J. Xiao, A. Torralba, and A. Oliva. Learning deep features for scene recognition using places database. In NIPS, 2014.
  • [Zhou et al., 2017] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Scene parsing through ADE20K dataset. In CVPR, 2017
  • [Zhou et al., 2019] Zhou, Bolei, Hang Zhao, Xavier Puig, Tete Xiao, Sanja Fidler, Adela Barriuso, and Antonio Torralba. “Semantic understanding of scenes through the ade20k dataset.”