物体検出(Object Detection)

1. 概要

物体検出( object detection )とは,入力画像上の各物体インスタンスの関心領域(ROI)を矩形で囲ったバウンディングボックスを検出(detect)した上で,検出した各バウンディンボックスのインスタンスを,語義による(意味的な)物体クラスへの識別も同時に行うというコンピュータビジョン問題である.

この記事では,近年主流の物体検出テクニックである「深層学習ベースの物体検出(3節)」を中心に述べたい.一方で,その導入も大事であるので,それ以前の時代の「単一物体検出(2節)」についても,駆け足でまとめておく.これにより,読者が深層学習ベースの物体検出と,それ以前の手法との比較を行えたり,昔の技術からの着想も得やすくしておきたい.

物体検出は,人間が普段認識している物体単位どおり,そのままコンピュータが各物体の「領域」および「物体クラス」を推定できるので,更なる高次タスクにも活用しやすく汎用性が高い.よって,現在の画像認識では,最も基本的で重要な技術の1つである.

一方で,その汎用性の高さと基盤技術ぶりから,過剰に発展すると監視社会助長にもつながる技術である.したがって「人間性の尊重」の視点で,モラルやプライバシー面も,常に配慮する必要性も高く,物体検出システムを研究開発する側のモラルの高さも問われる技術であると家用(昔ながらの物体追跡技術と共に,軍事転用にもなりやすい技術である).

この記事後半で紹介する,初期のディープラーニングを用いた検出ネットワーク(SSDや,Faster R-CNN)は,クラウド開発環境や組み込み開発環境上で,広く「ツール化」「コモディティ化」されている.よって,専門性がない人とも,それらは誰でも使える時代になっている.しかし,その使い道や研究発展方向に常に気を付けておかないと,人間の自由やプライバシーを過度に犯す社会を招くことは,(特に産業応用側の方ほど)肝に銘じていただきたい.

1.1. 記事の構成

2節以降,以下の構成で物体検出について述べる:

  • 2節 古典的な,単一クラスの物体検出モデル
    • 2.1 CNN手法登場前の大まかな流れ.
    • 2.2 顔検出(Viola & Jones) と 歩行者検出(HOG + SVM)
    • 2.3 Deformable Part Models (DPMs)
  • 3節 深層学習(CNN)ベースの物体検出
    • 3.1 2ステージ型の例:
    • 3.2 1ステージ型の例:

2. 古典的な『単一クラス検出器』による物体検出

まず2.1節では,古典的手法から現在までの流れを簡単にだけ述べていく.

2.1 CNN手法登場前の大まかな流れ

2.1.1 テンプレートマッチング

古典的なマシンビジョンでは,剛体を検出対象としたテンプレートマッチング(Template Matching)と呼ばれる,物体検出方式だけが,まず実現して実用的に使われていた.テンプレートマッチングでは,検出対象物体に対してテンプレート画像を用意し,画像内の探索範囲内中でテンプレートと対象のあいだで相関マッチングを各候補位置で行う『スライディングウィンドウ処理』をおこない,その結果,テンプレート画像と類似度の高かった領域を物体検出結果として出力する方式である.テンプレートマッチング方式は, 畳み込みを用いた画像フィルタリングと似ており,スライディングウィンドウをベースにした処理手順である点で両者は共通している.

テンプレートマッチング方式は「外観検査」のように,背景が単純な単色で,検出対象も剛体的であり,対象物体以外の背景領域に外乱やノイズが少ない条件設定で威力を発揮しやすい.その一方で,日常の風景画像や,動画に映る数多くの一般物体を対象にしようとしても,人や物の周囲には背景も撮影されていてその背景変化パターンも複雑であり,検出したい対象物体も,視点・照明などによって見え方(Appearance)の変化も大きい.よって,テンプレートを複数用意したくらいでは,日常画像からの物体検出は達成できなかった.特に「人 / 顔 / 猫」クラスなどの『関節自由度(articulation)=姿勢の変化』で見え方が様々に変化する動物系のクラスを,テンプレートマッチング技術だけでうまく検出することは困難であった.

2.1.2 「単一物体検出」の登場

そんな中,機械学習を用いたパターン認識技術の登場に伴い,単一物体検出モデルに基づく物体検出技術がまず登場した.これにより,昨今の物体検出ネットワークまでなんでも検出できたりはしないものの,限定的なクラスや姿勢では,実画像で物体検出できるように成り始めた.

単一物体検出モデルでは,意味的なクラスで分けた物体ごとに,固定サイズの矩形範囲の局所画像が「物体(クラス1) or 背景(クラス0)」のどちらなのかを,HOGなどの手作り特徴を入力とした2クラス識別器(SVM,Adaboostなど)を学習しておき,スライディングウィンドウの各位置でクラス識別を行う(例:顔検出歩行者検出など.2.2節).

「同定・検索」の前処理としての単一物体検出

単一物体検出モデル(人検出器や顔検出器)は,ディープラーニングが手段の主流になる以前から,動画監視や画像検索,デジタルカメラの顔検出などにおいて,産業応用使用されてきた.顔認証などで人や顔などの同定(Identification)を行う際には,ID認証処理を行いやすい関心領域(ROI)(もしくは,それを囲った矩形であるバウンディングボックス)を,先に自動的に物体検出で抽出しておきたい.よって,同定エンジンの前処理として,単一物体検出をおこなうことで,同定したい対象クラス物体の領域画像を手に入れるという処理手順にすることが多い.

2.1.3 CNNによる「大規模クラス物体検出」

一方,ディープラーニング登場以降のCNNを用いた大規模クラス物体検出(3節以降)は,AlexNetVGGNetなどで当初取り組まれていた大規模物体クラス識別問題を,物体検出と同時に済ませることができる(Faster R-CNN,SSD, Yoloなど).

CNNは,既存機械学習モデルよりも深くて巨大なモデルに表現を学習できるので,物体 数十~数千クラスについて,単一の巨大ネットワークだけで,検出できるようになった.CNN物体検出では,見えの変化や姿勢の変化へもうまく対応できるようになったのに加えて,回帰ヘッドの使用で部分遮蔽にも強くなった.従って,従来の単一物体検出モデル(2.1.2節)とは,実現できることの差が大きい.

3節では「2ステージ型モデル(Faster R-CNNなど)」「1ステージ型モデル(SSD, Yoloなど)」の2種類の戦略にカテゴリ分けして,基本となる初期の各提案手法を紹介する(逆に,それらの応用である,のちの各改善手法は,この記事では対象外としている).

2.2 顔検出器と,歩行者検出器の登場

2.2.1 顔検出器:Viola & Jonesの手法

2001年に,Viola & Jones [Viloa and Jones, 2001] の高速な顔検出器 が登場した.この手法はAdaboostを用いたHaar-like特徴の選択により,当時のデジタルカメラの性能でも,実時間での物体検出を初めて可能としたことで,リアルタイム性を達成できていなかった物体検出に,パラダイムシフトをおこした.これをきっかけとして,顔検出の産業応用のブームがはじまった.また,これに次ぐ形で,顔以外のクラスを対象とした「単一物体クラス検出」の研究も盛んとなった.

[Viloa and Jones, 2001] に代表される,Adaboostなどを応用した『Boostingベースの物体検出器』は,特徴選択により速度向上と精度向上を両立させやすい.よって,顔検出以外に,歩行者検出でもこの路線が有効活用され発展していった.この路線は,ディープラーニングのブーム手前までに,最終的に,Integral Channel Features (ICF) [Dollar et al., 2009] という,高速で高精度な手法まで発展していった.

2.2.2 歩行者検出:HOG + SVM

2005年には,マルチスケールの歩行者検出手法の当時の決定版として「HOG (Histograms of oriented gradients) 特徴」ベクトルと,Support Vector Machines (SVM)を用いた歩行者検出 [Dalal and Triggs, 2005] が 登場した.

2.3 Deformable Part Models の登場

こうして「顔検出」 と「歩行者検出」の2系統の単一物体クラス検出手法が,活発に研究されていたが.欠点としていずれも「固定の縦横アスペクト比の物体検出器」しか学習できない点があった.顔と歩行者以外の物体(例:飛行機,車,家など)は,1クラス内でも,縦横のアクペスト比が撮影視点ごとにバラバラになりやすく,これまでどおりの解きかたが難しい.

そんな中,自転車クラスなど20物体クラスを対象とした物体認識ベンチマーク 「PASCAL VOC 2008」の勝者として,アスペクト比やパーツ移動による見え方の変化にも対応できるようになる Deformable Part Models (DPMs)をもちいた複数物体検出手法 が登場した [Felzenszwalb et al., 2008].

2.3.1 パーツ検出器の弱教師あり学習

DPMs [Felzenszwalb et al., 2008] は「HOG特徴 + Latent SVM」を用いて,パーツの矩形ラベルなしのデータセットから各パーツの位置関係グラフを,パーツ検出器(Part Model)弱教師あり学習により学習する.物体全体の矩形は教師情報として与えるが,パーツの矩形は教師として与えず(Latent SVMの)潜在変数化にされている.そして,Latent SVMの学習中に,その潜在変数である(5~6個程度の)「パーツ位置とパーツフィルタ」が自動的に決まる.

当時の物体認識チャレンジの主戦場であった PASCAL VOC Challengeは,それまで検出器の主な対象であった,歩行者や顔以外の,様々な物体クラスの検出モデル学習用のラベルを新たに提供し始めたデータセットで,20クラス程度の物体クラスが検出対象となった.領域矩形のアクペスト比が固定で済む「歩行者(全身)」や「顔」などの物体クラスと違い,たとえば新登場した「自転車」クラスは「見え方の多様性が大きい」クラスである.よって,当時の縦横のアスペクトが固定の単一的な見え方しか学習できない物体検出技術(2.2節) では,自転車クラスの見え方やアスペクト比は多様すぎるゆえ,精度の高い検出器を学習できなかった.

そこでDPMsでは,「パーツ検出」の概念を「Latent SVM」を通じて導入した.物体クラスのパーツ位置を,Latent SVM の潜在変数とし,その$N$個のパーツ位置の潜在変数$\bm{z_i}$も,検出器の学習中に同時に探索する.全体検出器 (root filter) のSVMを学習するのに加えて,自動探索が終わった$N$個のパーツ位置の領域サンプルから,各パーツの検出器 (part filters)$N$個も学習する.そして,Latent SVMのグラフィカルモデルで,それらのパーツ配置(root filter矩形に対するpart filterの相対的位置・サイズ)も線形回帰させる.これによりテスト時には,全体検出器と各パーツ検出器の双方のフィルタ応答を利用して,グラフィカルモデルの推論を行い,全パーツの最適配置を検出結果として推定することができるようになった.

こうして「自転車」のような「パーツ配置に多様性があるクラス」でも,パーツの変形具合を学習できるモデルとなった.また,DPMsは以前よりもパーツ位置の変化に頑健な物体検出器の学習を,パーツのROIのアノテーションは行わず,弱教師あり学習によって学習できるようになった.

2.3.2 視点Mixureの導入

DPMsでは,視点(view)別のモデルを複数学習しておき,それらの混合モデルとして1モデル化する視点Mixtureも提案された.各視点の画像のみで各視点のLatent SVM を学習しておく.そしてテスト時は,Root Filterの応答が最も強い視点の Latent SVM のみを用いて,物体検出を行うという仕組みである.

旧来の「歩行者」検出器では,視点が変わっても縦横比が64 x 128で揃えやすかったが,PASCAL VOCで新たに物体検出器を学習する必要が出た「自転車」クラスや「犬」クラスなど,正面・横・その他視点でROI矩形のアスペクト比が大きく異なり,見え方も視点ごとに異なってくるクラス群を検出できるように視点mixtureモデル化が考案された.

2.3.3 DPMsの課題

以上のように,DPMはPascalデータセットのような「写り方の視点・パーツ配置が多様な物体」も,1モデルとして一括学習できるようになり,当時としては一躍,最高峰の物体検出技術として躍り出ることになった.

しかし,DPMをもってしても,CNNが実現したような「高速な大規模クラス検出モデル」は実現できていなかった.パーツモデル(2.3.1節)と視点Mixture(2.3.2節)を用いても「2次元平面的なパーツの移動」と「物体全体の視点による見えの変化」までしかモデリングできず,「3次元的な見えの変化が多い物体クラス」については,まだ十分な性能の検出器を学習できなかった.

Rootフィルタもパーツフィルタも固定サイズであるゆえ,パーツの平行移動だけだでは表現できない見えの変化はモデリングできていない.また,全パーツ写っていないとグラフが検出できないので「対象物体の半分しか写っていない場合」など,部分遮蔽にも対応できなかった.

それに対して Faster R-CNN [Ren et al., 2015] 以降の「CNNベースの物体検出ネットワーク」では,深層学習やCNNのパワーのおかげでこれらの弱点を克服することができ,多様な物体クラスの検出や,きびしい遮蔽への対応が可能となる.

※ ちなみに,人物姿勢推定においては,Flexible Mixture-of-Parts などのDPM系の「きびしい遮蔽へも対応した」発展手法が,ディープラーニング流行前に登場した(以下の関連記事を参照):

3. 深層学習(CNN)ベースの物体検出器

物体検出では,事前学習済みのVGGNetなどをバックボーンとして特徴抽出に用いる物体検出モデルとして,以下の2つの構成が主流となった:

  • 2ステージ型 (3.1節, Faster R-CNN [Ren et al., 2015] など):
    • 領域提案ネットワークと,大規模クラス識別ネットワークの2段階に処理を分けることで,「多クラス識別+バウンディングボックス修正量回帰」を行い,複数クラスの物体を検出する.
    • Faster R-CNNなどでは,PASCAL VOC2012(20クラス)やCOCOデータセット(80クラス)の検出器を学習する.
  • 1ステージ型 (3.2節, Yolo, SSDなど):
    • 入力画像全体に対してCNNバックボーンで計算した特徴マップから,(領域候補で絞ることは行わず)事前に入力配置されたアンカーボックス群に対して,クラス識別およびバウンディングボックス回帰を,1つのネットワークで直接行う.
    • Yolo v2の頃以降の1ステージ型検出器では,ImageNetのクラス数相当の1000クラス以上の検出を行えるようになる.

以降は,この2種類の手法を順に紹介する.

3.1 「2ステージ型」の例: Faster R-CNN

Faster R-CNN による Object Detection
図 Faster R-CNN

Faster R-CNN (Faster Region CNN) [Ren et al., 2015] の提案により,最初に確立された深層学習による物体検出の方法が「2ステージ型のCNN物体検出手法」である.処理が前・後半の2ステージに分かれているので,2ステージ型と呼ぶ.

Faster R-CNNの前半ステージでは物体領域候補をまず検出しておき,後半ステージでは,その各候補領域において「多クラス識別」と「推定したクラスに従った矩形領域の修正」の推定を両方行う.

Faster R-CNN の2つのステージでは:

  • 前半ステージ領域提案ネットワーク (RPN: Region Proposal Network)を用いて,物体が写っている物体の領域提案 (Region Proposal)をスライディングウィンドウ + アンカーボックス処理で検出する.検出された領域提案群は,同じ物体インタンス周辺に30~100個ほどが近い位置に多数検出されているので(Viola&Jones [1] や HOG+SVM [2]などの頃と同様に)非極値最大化 (NMS) 処理(= クラスタリング)を行う.これにより,物体領域ごとに1つの領域候補だけが出力される.
  • 後半ステージ:RPNで計算済みの特徴マップから,各領域提案内でアンカー部分の画像特徴のみをROI プーリング で「縦横サイズが正規化された」値として集約する.そのROI プーリングされた特徴マップを用いて,物体クラス識別とアンカーに対する修正量回帰の2つの予測を行うことで,最終的なクラス識別済みの検出結果バウンディングボックス群を得ることができる.

(※ RPN/Faster R-CNNは,出力層以外は Fully Convolutional Network なので,入力画像サイズが可変で済む).

2節の単体クラス識別器の「2クラス識別」学習と異なり,後半ステージのネットワークには全クラスの確率が一緒に学習されていることが重要な点である.複数検出候補のアンカー領域内の画像特徴に対して,複数クラスの同時発生具合を後半ステージにおいて学習する.したがって,複数クラス間や複数インスタンス間で遮蔽している場合でも,物体検出ができやすくなる特性がある).

例えば,バイクの上に乗っている2人がお互い重なって写っている場合でも,そういう遮蔽ありの画像から,重なり時の特徴マップを沢山学習しておくことで,互いに遮蔽している2人ともうまく検出しやすい検出モデルを学習できる.次節の1ステージ型も「物体間遮蔽やクラス間遮蔽をモデリング(学習)できる」ところは2ステージ型と共通している.

3.2. 「1ステージ型」の物体検出器

Faster R-CNNによる2ステージモデルの手法が確立した時期に,並行して登場してきたのが,YoloやSSDなどの1ステージ型の検出器 (one stage detector)である.

1ステージ検出器は,複数スケールの各グリッド上に配置したアンカーボックスに対し,単一ネットワークを用いて,入力画像を畳込んだ画像全体の特徴量から,アンカーに対するオフセットの回帰とそのアンカーボックスのクラス識別を直接おこなう.つまり,2ステージ型であるFaster R-CNNのような「領域候補検出処理による前半処理フェーズ」には分離せず,$N$クラスの違いと検出矩形を,ネットワーク全体に直接学習させる,1ステージ型の物体検出ネットワーク構成手法である.

3.2.1 YOLO (You Only Look at Once)

Yolo (You Only Look at Once) [Redmon et al., 2016], [Redmon and Farhadi, 2016] は,1ステージ型の代表的な大規模物体検出手法である.画像全体を$W \times H$個のセルから構成されるグリッドに分割してとらえる(例:yolo v2では画像全体を$13 \times 13$のセルに区切る).グリッド上の各セルおいて,それぞれ [クラス識別・バウンディングボックス回帰・物体度]の3つのラベルを,マルチタスク学習する.テスト時は,「クラス識別結果と物体度を掛け合わせたスコア」を検出結果出力のスコアとして用い,それらの検出結果を非極大値抑制(NMS)することで最終的な検出結果を得る.

Yoloの研究 には,version 3まで存在する(※2019年現在).段階的に他手法のいいところを取り入れて,SSDに対して最初は遅かった速度の改善などがなされつつ,超多数クラス(Yolo v2 で 9000クラス検出)対応しながら高性能にもなっていった.Yolo v2 [Redmon and Farhadi, 2016] は Faster R-CNN で提案されたアンカーを導入したので,この時点で実質的に「RPNとYolo v2がほぼ等価の設計になった」とも捉えることができる.

※ 2020年 6月追記:Yoloの作者 Joseph Redomon が,2020年2月に,Yoloなどの画像検出技術の監視社会助長性の高さを危惧し,Computer Visionの研究者からの引退を宣言したことが話題となった (参考記事).しかし,そんな作者の願いも虚しく,台湾の他ラボが継承したYolo v4がさっそくこの春に登場してしまっている.

3.2.2 SSD (Single Shot Multibox Detector)

SSDの処理フロー
図 SSDの処理フロー

SSD(Single Shot Multibox Detector) [Liu et al., 2016] は,YOLOと同時期に提案されたが,YOLOを少し改善し,ネットワーク設計思想も異なる,代表的な1ステージ手法である.SSDは,全体が完全畳み込みネットワーク化されている.

  • 前半:「特徴量抽出ネットワーク」では,VGGInceptionNetなどの画像全体を畳み込む特徴抽出部分を用いて特徴量を入力画像全体から抽出してき,VGG終盤の全結合層を,畳み込み層に差し替えた.
  • 後半:各解像度の「検出ネットワーク」では,前半のネットワークの各中間層から,対応するスケールごとにそのスケールサイズに沿ったアンカーボックスを用いて,スケールごとに個別に物体検出する.

最初Conv5_3 層では, 38 x 38 の空間セルにおいて,異なる6種のアスペクト比のデフォルトボックスに対し,(クラス確率 Nクラス分,オフセット4つ)のペアの予測をそれぞれ行う.その層以降は,特徴マップを畳み込んで小さくしていくにつれ,それまで畳み込んだ受容野の範囲が大きくなり,より後半を圧縮した抽象化度の高い対象物体をの検出する事になるが,特徴マップの空間サイズはどんどん狭まっていく.

従って,SSDが各スケールの特徴マップで出力するデフォルトボックス数は,以下のように設定されている:

  • Conv4_3: (38×38) × 4 = 5776 ボックス (4アンカーボックス/セル)
  • Conv7: (19×19) ×6 = 2166 ボックス (6アンカーボックス/セル)
  • Conv8_2: (10×10)×6 = 600 ボックス(6アンカーボックス/セル)
  • Conv9_2: (5×5)×6 = 150 ボックス (6アンカーボックス/セル)
  • Conv10_2: (3×3)×4 = 36 (4アンカーボックス/セル)
  • Conv11_2: (1×1)×4 = 4 (4アンカーボックス/セル)

以上を合計して 5776 + 2166 + 600 + 150 + 36 +4 = 8732個のデフォルトボックスが,6スケールにまたいで配置されている.

SSDは,YOLO (v1)より高速に動く一方で,初期の畳み込み特徴を後半の層まで伝える「スキップ接続」のような仕組みは設けられていない.つまり,VGGそのままの単純な畳み込みを連続して続けるFCN構造である.よって,出力ヘッドに送られるConv4_3は,VGG序盤層で消えてしまう「細部のローレベル特徴」が足りないため,小さな物体の検出には弱い.この弱点に対抗する改善手法として,その後 RetinaNet や RefineDet が登場する (これらの発展手法については,この記事では取り上げない).

3.3.3 省モデル化・高速化

SSD や YOLO の提案と同時期に進んだ「ディープニューラルネットワークの省モデル化および高速化」の発展の恩恵を,1ステージ制の検出器は特に受けている.パソコン上では無い「組み込み環境」での小計算資源や,メモリの少ない環境でも,ある程度の高速性と精度を保った状態でSSDやYOLOを使用できるようになってきている.例えば,エッジコンピューティング目的で物体検出モデルを使用している方は,MobileNet v2 [Sandler et al., 2018] の論文で提案された「軽量型のSSD (SSD Lite)」が標準装備されていことが多いく,SSDを使ったことがある方も多いと思う (※ この段落は 2019年に記述).

4. まとめ

この記事では,画像からの物体検出手法として,古典的な単一クラス検出器(2節)と,深層学習時代の物体検出器(3節)についてまとめた.深層学習ベースの物体検出手法では,アンカーと呼ばれる「検出結果領域のPrior」に対する矩形修正量を,特徴マップ上のアンカー内の局所特徴に対して学習しておくことが基本である.

4.1 その後の発展

この記事の3節では,ディープラーニング流行以降の,初期のCNN物体検出ネットワーク(2016年ごろまで)の紹介のみにとどめた.それら基本的な初期モデルはこの記事でおさえられたと思うが,その後も,以下に示すような代表的な手法や工夫が研究され,物体検出の発展は続いている:

  • Mask R-CNN [He et al., 2017] :検出と同時に,各インスタンスの物体マスクも同時学習する問題設定 (関連記事:インスタンスセグメンテーション)
  • Feature Pyramid Networks [Lin et al., 2017]:特徴量マップの効率的なピラミッド化により,マルチスケール対応性が向上する.(関連記事:CNNの特徴集約:Feature Pyramid Networks(FPN)など )
  • CornerNet [Law and Deng, 2018]:1ステージ型だが,アンカーの設置をやめて,人物姿勢推定向けに登場したAssociative Embeddingという手法に習って「Keypointの埋め込みベクトルをプーリングする」という新路線の物体検出ネットワークである.シンプルであり,マルチタスク学習化しやすく,そのおかげで処理速度も確保しやすいことから,あらたな主流アプローチの1つとなっていく.

参考書籍

References

  • [Dalal and Triggs, 2005] N. Dalal, B. Triggs. Histograms of oriented gradients for human detection, In CVPR, 2005.
  • [Dollar et al., 2009] Piotr Dollar, Zhuowen Tu, Pietro Perona, and Serge Belongie. Integral channel features. In BMVC, 2009.
  • [Felzenszwalb et al., 2008] P. Felzenszwalb, D. McAllester, and D. Ramanan. A discriminatively trained, multiscale, deformable part model. In CVPR, 2008.
  • [He et al., 2017] K. He, G. Gkioxari, P. Dollar, and R. Girshick, “Mask r-cnn. In ICCV, 2017.
  • [Law and Deng, 2018] H. Law and J. Deng. Cornernet: Detecting objects as paired keypoints. In ECCV, 2018.
  • [Lin et al., 2017] T. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In CVPR, 2017.
  • [Liu et al., 2016] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, Cheng-Yang Fu, and A. C. Berg. Ssd: Single shot multibox detector. In ECCV, 2016.
  • [Redmon et al., 2016] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. You only look once: Unified, real-time object detection.
  • [Redmon and Farhadi, 2016] J. Redmon and A. Farhadi. YOLO9000: Better, Faster, Stronger. In CVPR, 2016.
  • [Ren et al., 2015] S. Ren, K. He, R. Girshick and J. Sun. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, In NeruIPS 2015.
  • [Sandler et al., 2018] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen. Mobilenetv2: Inverted residuals and linear bottle- necks. In CVPR, 2018.
  • [Viloa and Jones, 2001] P. Viola, M. Jones. Rapid object detection using a boosted cascade of simple features, In CVPR 2001.

外部参照リンク

関連記事

↓ ためになった方は,記事をSNSでシェアをしてくださると,管理人の記事執筆モチベーションが上がります