Cityscapes データセット

1. Cityscapes データセット とは [概要]

Cityscapes データセットとは,都市部の自動車前方映像を用いて,セマンティックセグメンテーションインスタンスセグメンテーションモデルを学習するために作られた,交通向けシーン画像のデータセットである[Cordts et al., 2016].

Cityscapses Dataset | Paper With Code

ADK20Kのような「シーン画像」向きのデータセットであるので,人や車に信号などの「物体クラス」以外にも,道路・歩道や,建物,フェンス,地形,空など「背景」の各クラスにもラベルが付いている.

1.1 Cityscapes 登場直前の状況

2012年にKITTI データセット [Geiger et al., 2012] が登場した.これにより,車載前方映像を用いたADAS(先進運転支援システム: Wikipedia)の研究開発が,次の世代の段階に移行した.

同時期に,CNN画像認識が流行を開始したことで,セマンティックセグメンテーション向けにFCNやDeepLab(v1)などが登場する.これらはVOC 2007 VOC 2012などの物体画像向けの実験しかできなかった.当時はImageNetしか,深層学習向けに過学習を避けて使える規模を確保できた大規模オープンデータセットがなかったことが理由である.

一方で,車載前方映像むけには,まずSegNetでは,著者らによる小規模の映像データセット潜在能力が示された.KITTI データセットのような規模で,セマンティックセグメンテーションCNNの学習2使えるデータセットが(業界として)欲しくなってきた.

そこで,ADASを目的とした大規模な車載前方映像向けのデータセットとして,Cityscapseデータセットが製作・公開され,2016年に論文発表された [Cordts et al., 2016].

2. Cityscapse データセットの特徴

上記のサイトのdataset overviewページに,データセットの特徴がわかりやすく列挙されてまとめられているが,そこからCityscapseデータセットの特徴を,以下にピックアップしてまとめておきたい:

  • ドイツ中心に,50の都市の道路で,専用車から撮影.
  • 「物体インスタンス」ごとに,密な画素単位の「意味クラス」ラベルを提供.
  • 意味クラス:8グループにカテゴリ分けした,30クラス(各クラスの定義).
  • 手動で選んだフレームに対して,以下の2レベルでラベル付け:

全体の画像データ量はそこそこ多いものの,密なアノテーションが提供されている画像はtest/valの3,500枚程度であり,少量である(論文中1ページ目のキャプション無し図に,この3つの割り当てが可視化されている).

以下に,CVPRでの発表動画を埋め込んでおく

2.1 クラスとクラスグループ

先ほども紹介したdataset overviewページに,30クラスの細かな分類がされているので,こちらで日本語で表にまとめておく.dataset overviewページで,各クラス上をマウスオーバーすると,そのクラスの詳細な定義文を見ることができる.

グループクラス
flatroad · sidewalk · parking+ · rail track+
humanperson* · rider*(自転車・馬などに乗っている人間)
vehiclecar* · truck* · bus* · on rails* (電車や路面電車) · motorcycle* · bicycle* · caravan*+ · trailer*+(車でひかれている物)
constructionbuilding · wall · fence · guard rail+ · bridge+ · tunnel+
objectpole · pole group+ · traffic sign · traffic light
naturevegetation · terrain
skysky
voidground+ · dynamic+ · static+

このうち,以下のクラスは特別なアノテーションやクラス分類が,別途ほどこされているクラスである:

  • ※ 印:各単体インスタンスごとに分かれてラベルが提供されているクラス.
  • + 印:(登場頻度が少なめので)evaluationからは,除外されているクラス.

交通シーン映像のデータセットであるので,道路,人,車,建物,木々,空,あたりが,主要なクラスである.

そのなかでも特に,※ 印の各(物体)クラスには「インスタンスごとのアノーテーション」が提供されているおかげで,COCOと同じように,Cityscapseでもインスタンスセグメンテーションのモデルが学習できる点は,Cityscapseデータセットの重要点であるとも言える.

2.2 教師あり学習には少し足りなかったラベル量

Cityscapseは「ラベル付きデータセット」としての規模は微妙であり,使いづらさがあった.それはADE20K データセットのように,大量のデータに,全画素への密なラベルが提供されているわけでは,なかったからである.2節冒頭のリストにも示したように,「Trainデータのアノテーションが,疎な,多角形ベースのラベル」であったことから,初期の完全な教師あり学習の時代には,やや活用しづらいデータセットであった.

当時は,大量の画像にアノテーションをする仕組みがまだ確立されていない先駆的時代であり,アノテーション専門の企業などもまだ登場していなかった.よって,1つの研究チームがディープラーニング用の大量の画像から構成されるデータセットを提供するには,Cityscapse の規模の中程度のラベル量が限界であったとも言える.

2.3 「少数ラベルからの学習」の発展に伴う,役目向上

それが,2017~2018以降に「少数ラベル付きデータからの学習」に研究のフォーカスが以降しはじめて以降は,Cityscapseの活用できる度合いが向上したといえる.近年は(特に2020以降),「半教師あり(Semi-Supervised)セマンティックセグメンテーション」の研究もよく観られるようになってきており,疎なアノテーションのCityscapseでも活用しやすい.

ただし,自動運転計を先導する各研究チームから,後継のデータセットとしてBDD100Kに,nuScenesMapillary Vistasなどが登場した.よって先駆者のCityscapseだけでなく,それらの構成データセットもADAS・自動運転目的の映像セグメンテーション研究で用いられるようになった.

References

  • [Cordts et al., 2016] Cordts, Marius, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. “The cityscapes dataset for semantic urban scene understanding.”
  • [Geiger et al., 2012] A. Geiger, P. Lenz, and R. Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In CVPR, 2012.