1. KITTI データセットとは [概要]
KITTI データセット とは,車載前方映像と3D点群を入力にした,各種のビジョン問題向けのベンチマークである [Geiger et al. 2012] .正式名称はThe KITTI Vision Benchmark Suiteであり,KITTIは「Karlsruhe Institute of Technology and Toyota Technological Institute」の略である.ドイツのカールスルーエの公道で専用車により撮影され,車載前方のステレオ動画・3D点群とGPS位置座標から構成される.
KITTI データセットは,発表当時(2012年)としては,まだ目新しかった目標課題であった「自動運転」をターゲットにした先進的なデータセットであった.豊田工業大学シカゴ校(TTIC)に当時在籍していた,Raquel Urtasun 教授が先導したプロジェクトである.彼女は,その後,自動運転系ビジョンの研究を継続的に発表し,トロント大学に移ったあとも,3D点群を入力とした自動運転向けの周辺環境認識や自動車経路予測の研究を得意とし,成果を多く出している.つまりは,自動運転界隈の技術を先導している第一人者の1人である .
※ おそらく,女性である Urtasun教授らが名付けたことから,名前がKITとTTIシカゴ校をつなげた「キティ(ちゃん)データセット」になったと,個人的には憶測している.
KITTI データセットは,画期的な新規性の高いデータ構成や目的設定のデータセット・ベンチマークであり,自動車向けビジョンの界隈では多くの研究で使用された.その後,類似データセットが登場しなかったゆえ,パブリックな研究成果がKITTIに集中したため,標準的なベンチーマークとして現在(2022年まで)君臨しつづけている.
それまでの車載前方映像処理の主問題であった,RGBカメラからの(ステレオマッチングによるデプス推定,オプティカルフロー推定)向けにKITTIはまずは使用されていく.それは,同時にLIDAR 3D点群データも追加されているので,そうした3Dビジョン問題の正解3Dデータとして,3D点群を使用できるようになったからである(計測誤差はあるので,疑似的な正解ではあるが).もちろん3D Lidar点群のみを入力とした「点群処理」を解く,各種ベンチーマークもKITTIでは行われていく.
また,物体と人の3Dバウンディンボックスに対するアノテーションが提供されていく(3節).RGB画像からの3D物体検出(もとい3D車検出)や,セマンティックセグメンテーションに,複数物体追跡など,ベンチーマーク対象の問題が徐々に増えていったこともKITTIデータセットの特徴である.
2. KITTIの構成
以下の動画は,KITTIデータセットの著者らによる紹介動画である.データ構成の説明に加えて,専用車によるデータ取得方法の紹介などもされている.
動画中でも説明されているように,専用車で公道を運転中している最中に取得するのは,各フレームにおける,以下の3種類のデータである(setupのページに詳細が書かれている):
- ステレオカメラ(RGBとモノクロ)の画像フレーム群.
- 各フレームの周辺 3D点群(Velodyne社のライダー).
- 各フレームの,自動車の位置情報(GPS).
近年,ドローンで,建物群や山の木々などの3次元構造を「Structure From Motion + Multiview Stereo 」で再構成することが増えているが,KITTI はそういった3Dモデル化が目的ではなく,ADASや自動運転を目的とする「動画データを用いたリアルタイム処理」を想定していることがポイントである
3. 追加のアノテーションやベンチマーク
KITTI登場以降の3~4年間は,ディープラーニングの隆盛と並行していた(2012~).よって,新たに取り組みたい問題が増えるに従い,そのための追加のアノテーションが提供されることが多かった (KITTI Dataset | Paper with Code) に示されている例を参照.
おなじ理由で,新しい公式ベンチマークも,徐々に追加されていった.Monocular depth推定など,ディープラーニング登場に初めて解けるようになったビジョン問題が,その中心である.(ベンチマーク一覧はKITTIのサイト上で見れるので,そちらを参考のこと)
4.過集中による結果提出の制限
1節でも述べたように,KITTIはあまりにも皆が使うベンチマークになりすぎてしまった.その結果,各ベンチマークには,大量の提出結果がならんでいくことになり,どのランキングも結果が乱雑になってしまった.匿名投稿の結果提出も受け付けていたたため,尚更どれがどのようによいか判断しづらい,解釈も難しい上に提出数が多すぎてみづりあランキングが,各ベンチマークにおいて続出してしまったわけである.
よって,近年では,評価結果提出の制限が行われるようになった.現在は「ピア・レビューで採録された論文における結果のみしか,サブミットしてはいけない」というルールになっている.ビジョン系の会議・論文だけでなく,Intelligent Vehicle や ICRAなども含めて,自動車前方映像のビジョン研究が発表される会議の数は多かったので,対抗データセットが出てこない中,(2022年現在まで) KITTIばかりが10年もたくさんの研究者に使われ続けた結果ではある.
関連記事
References
- [Geiger et al., 2012] A. Geiger, P. Lenz, and R. Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In CVPR, 2012.