セマンティックセグメンテーション(Semantic Segmentation)

1. Semantic Segmentation の概要

セマンティックセグメンテーション (semantic segmentation) とは,シーン画像に対して,画素ごとに独立して意味(Semantics) のクラス識別を行い,画像全体の意味的な領域に分割する問題である.画素ごとに識別するクラスとしては,例えば「道路」「人」「空」「海」「建物」などの,おおまかな意味単位を,正解としてラベル付けするクラスに用いる (SegNet [1] など).2010年代に入って以降の自動運転研究の開始に伴い,取り組む研究者が増えた問題ででもある.

Deep Neural Network 登場のおかげで,高精度かつ短時間の推定時間により解けるようになってきた.以前から画像の(特に2値ラベルでの)セグメンテーションは,MRF (Markov Random Field)や CRF (Conditional Random Field)などの確率的グラフィカルモデルを画像に適用することで取り組まれていた(Graph Cut アルゴリズムによる手法など).しかし,MRF・CRFを用いた手法では,グラフィカルモデルの解の推定に計算時間がかかる上に,シーンに多数の物体が配置されて複数の異なる意味クラスの物体・背景が登場していると,あまり正確には領域分割ができずに,それ以上の発展に少し行き詰まっていた問題設定であった.

そんな中,深層学習の時代になってから深層表現の恩恵により, Segnet [1],FCN [2], U-Net [3] などの「Deep Neural Networkを用いた手法」によるブレイクスルーが起こり,高精度に物体画像・シーン画像に対するセマンティックセグメンテーションを行うことが可能になり始めた.またその後に,シーン画像ごとの(お互い重なりもある)各物体インスタンスごとのマスクを推定する「インスタンスセグメンテーション」も登場する.

以降,この記事では,セマンティックセグメンテーションについて,代表的な手法およびデータセットの登場について,時系列順に述べていく.まずは1.1節にて,2節以降で述べる各手法で用いる技術の全体像から述べたい.

1.1 この記事で登場する各技術の全体像

Deep Neural Networksを用いたセマンティックセグメンテーションでは,以下のような技術を部品として用いることが多い:

  • 砂時計 (Hourglass) 形の Encoder-Decoderネットワーク構造を使用し,入力画像と同じサイズのラベル画像を出力する.(関連記事: Encoder-Decoder Model [ディープラーニングの文脈で])
  • Encoder-Decoder 中の各層に,Spatial Pyramind PoolingDilated Convolutionを用いることで,画素ごとの周辺範囲のコンテキストをより多解像度・効率的に加味できるようにすることで,高精度な予測を目指す.
  • スキップ接続を用いることで,Encoder 序盤の特徴マップの低レベル特徴量も,Decoder終盤まで直接受け渡すことで「低レベル特徴も利用した,局所の細かな変化に強いラベル出力」を可能に.
  • Fully Convolutional Networks (FCN) [2] を採用し,AlexNetVGGnetのように,終盤層に全結合層を用いる方針を却下して,全ての層を畳み込み層にした.これにより可変長サイズの入(出)力画像で,ラベル画像を推定できるネットワークを学習する. (関連記事:Fully Convolutional Networks (FCN))

上記の各アプローチは,セマンティックセグメンテーション目的で初登場したあと,他のタスクでもよく用いられる.例えば,物体検出(例 SSDのバックボーンへのFCN [2] の採用)や,人物姿勢推定(例 カスケード学習を行うStacked Hourglass Network),画像変換 (Image-to-Image Translation) などでも,砂時計型のEncoder-Decoderや,スキップ接続,Dilated Convolutionが使用されるようになっていった.

1.2 記事の構成

2節以降,この記事では以下の構成でセマンティックセグメンテーション向けネットワークについて述べていく:

  • 2節 完全畳み込みネットワーク(FCN)とスキップ接続
  • 3節 SegNetとU-Net:Encoder-Decoderモデル化.
  • 4節 データセットの登場
    • CityScapes
    • ADE20K
  • 5節 複数スケールのコンテキストを活用する路線
    • DeepLab v1,v2 : 膨張畳み込み(Dilated Convolution)
    • PSPNet : 空間ピラミッドプーリングの導入.
  • 6節 DeepLab v3:デファクトスタンダード手法の登場

2 完全畳み込みネットワークとスキップ接続

完全畳み込みネットワーク(FCN: Fully Convolutional Network) [2] は,物体一枚が写っているPascal VOCデータセット画像のような「画像の前景 v.s. 背景セグメンテーション」問題向けに提案されたCNNの改良・拡張ネットワークである.[2]では,CNNの終盤の全結合層を撤廃して,畳み込み層だけで最後まで重みかけ+ バイアスの処理を行う完全畳み込みネットワーク(FCN)が提案された.

また[2],画素毎のクラス識別を行うために必要な初期の層の低レベル特徴を,終盤の層にそのまま伝えて特徴量として用いるスキップ接続が提案された.

FCN登場以前の,AlexNetVGGNetなどのCNNバックボーンでは,序盤から終盤までの畳み込み層を通して得られた$(W , H , C)$次元の特徴マップを,最後にクラス識別するために終盤の全結合層で$d = W \times H \times C$次元ベクトルに展開する設計が標準的であった.しかしこの設計では,画像全体に対してクラス識別結果$y$を1つ学習するだけであり,画素毎のクラス識別が達成できない.そこで,画素毎にクラス識別結果$y_{i,j}$を個別に推定するCNNを,元の画像(全体)識別CNNの設計をほぼ引き継いだまま,少しの改良だけで実現したいという動機があった.

そこでFCNでは,これまでの全結合層の役割を特徴マップのグリッド単位で畳み込みフィルタに代替し,低解像度なセグメンテーションマップの各画素$y_{i,j}$のクラス確率を「畳み込みのみで」推定する,完全畳み込み(Fully convolutional)のCNN構造が提案された.FCN[2]で出力する特徴マップは,バックボーンCNNの全結合層手前の特徴マップであり,途中のプーリング層などを経て,入力画像からだいぶ空間解像度が落ちた低解像度マップである.よって,このままだと,かなり低解像度のセグメンテーションマップでしか画素ごとのクラス識別結果が出力できない.そこで,単純に線形補間を行うことで,入力画像の空間解像度まで出力の解像度を(無理やり)戻す仕組みも[2]で提案された.

しかし,線形補間のところも学習可能な層に変えて「学習可能なDecoder化」したほうが,より緻密なEncoder-Decoderモデルを学習でき,高精度のセグメンテーションが実施できる.そこで,ただ補間でアップサンプリングするのではなく,次の3節の SegNet や U-Net のように後半のDecoderに学習できる層も配置して,元の空間解像度へ戻していく手法が,提案されていく.

3 SegNetとU-Net

3.1 SegNet

オックスフォード大[1] (Arxiv 2015)の研究では,車載前方映像にセマンティクセグメンテーションのラベルを付与した初のデータセットである「CamVidデータセット」を用意し,Encoder-Decoder型のFCNであるSegnetを学習することを提案した (SegNetのプロジェクトページ) .

SegNetでは,前半のEncoderでプーリングを行うのと同じ回数だけ,後半のDecoderでアップサンプリングを行い,Encoderにより失った元の解像度を取り戻しながら特徴を再度Decodeしていく.最終的に,元画像と縦横サイズが同じ解像度のセグメンテーション出力マップ (= クラス数チャンネルの特徴マップ)を得る.

また,Encoder側の各Pooling層でMax Poolingする際に使用したMax位置の空間インデックスを,Decoder側の解像度が同じ層同士で対応しているUpsamplingの際に使用する.これにより,Pooling時とUpsampling時の間で,使用座標の一貫性を保持できる.

動画1: SegNet の出力動画

インスタンスセグメンテーション (Instance Segmentation) との違い

動画1のSegNetの出力結果動画を見ていただくとわかるように,セマンティックセグメンテーションでは「同一クラスであるが他の物体インスタンスであるもの同士」は区別できない.例えば,動画中にTreeクラスがたくさん登場するフレームを見てもらうと,奥と地上と手前のTreeクラスの塊がそれぞれ分離はできずに,1領域に統合されていることがわかる.これは,画素ごとにクラス識別しているだけだからである.また,Treeクラスだけでなく,建物や車や人のクラスについても,2個以上の同一クラスの物体インスタンス同士が重なっていても,各物体インスタンスごとに領域を区別することはできない.しかし,Mask R-CNNに代表される「インスタンスセグメンテーション」の問題設定がのちに登場したことで,各物体インスタンスを区別できるセグメンテーションが可能となる.

3.2 U-Net

U-Net [3]は,スキップ接続を更に多用することで,特徴マップ計算のマルチスケール処理度を高めたEncoder-Decoderネットワークである.U-Net自身は,顕微鏡生物画像のセグメンテーションの文脈で提案された論文であったのだが,5節で述べる次の世代の技術が定着するまでは,画像のセマンティックセグメンテーション全般でよく用いられる基本ネットワーク構造となった.ネットワーク全体を図で可視化すると,Encoder-Decoder間で左右対称的に「U」型のネットワーク構造になっていることから,U-Netと名付けられた.

FCNやSegNetと異なる点は,学習可能な$2 \times 2$の Upsampling Convolution層(※ 他の論文ではDeconvolution層とも呼ぶ)が導入された点である.Encoder側の$2\times 2$ Poolingでダウンサンプリングされた特徴マップを,Decoder側の対応する空間解像度の場所にそのまま受け渡す.そして,Upsampling Convolution層で空間解像度を上げたものを,Decoder側で特徴マップの後ろ側のチャンネルに結合する.すなわち,U-Netは,Decoder側は特徴マップ(もとい畳み込みカーネル)がEncoderに比べて2倍のチャンネル数だけ必要なので,少しパラメータが多めであり,過学習に気を付ける必要はある.

4 データセットの登場

2節,3節などの初期手法が登場していた2014-2015年の当時,ADASや自動運転向けの大規模ベンチマークとしてKITTI ベンチマークデータセット(CVPR 2012)が,既に登場していた.しかし,KITTIはステレオ推定やオプティカルフロー推定や物体検出などが目的のデータセットであり,セマンティックセグメンテーション用のラベル付けはされておらず,SegNetのようなネットワークの学習を行うことはできなかった.そこで,セマンティックセグメンテーション専用の少し規模が大きなデータセットとして,CityScapes(4.1節)やADE20K(4.2節)などが登場する.

4.1 CityScapesデータセット

そんな中,初めて少し規模が多めのセマンティックセグメンテーション向けの車載前方映像データセットとして,CityScapesデータセット(プロジェクトページ)[4] (CVPR2016)が登場した.動画全てにラベルをアノテーションするのは辛いということもあり,一定の間隔で限定したフレームにのみセグメンテーションラベルがアノテーションされている.また,詳細なラベル付けされている5,000フレーム以外にも,多角形で疎なアノテーションがその他20,000枚に提供されている (プロジェクトページ内のFine/Coarse annotaionsのページを参照).

4.1.1 データ分布が異なる場合への対応策

Cityscapesデータセットは,主にドイツ各都市で撮影された映像・データで,他国の道路や風景と様子がかなり異なる.例えば,Cityscapesデータセットで学習したSegNetを,日本の車載前方映像を入力としてテストしても,画像の様子がかなり違うのであまり精度が出ない.すなわち「他国・他地域のシーン画像の違いに対応できない」という問題がCityscapesデータセットにはある.また,国家間の車載カメラの見えの違いだけではなく,Cityscapesは晴天で昼間メインかつ春夏の映像であるので,枯れ木の多い秋冬映像や悪天候の映像も無く,多様性の面でも偏りがあった.

そういったデータ分布の違いに対応するために,ドメイン適応(Domain Adaptation)を用いてCityscapesのデータ分布には無いデータに対してのモデル転移を行う研究が盛んである.一方,pix2pix系の画像変換(Image-to-Image Translation)を活用して,データ転移により学習データを所望のデータ分布に変換させる研究も盛んである.加えて,これらの路線の中では,Learning by Synthesisの路線に基づき,CGやゲームグラフィックエンジンで生成した車載前方画像を学習に利用する研究も行われている.

4.2 ADE20Kデータセット

Placesデータセットのような「シーン画像認識」に興味の高いMITのTorallba先生のラボから,多様なシーン画像にセマンティックセグメンテーションのアノテーションを行った,ADE20Kデータセット [5]が登場した (プロジェクトページ).

Cityscapesのような車載前方動画を元にしたものではなく,ADE20Kは個々に独立して撮影された「シーン画像認識」を目的としている.前身であるシーン画像データセットの,SUNとPlacesのシーンカテゴリーを全てカバーするように,屋外屋内の各種シーンの画像が網羅されている.当然ながら,シーン毎にアノテーションされているマスクのクラスも異なり,多種多様である.

Cityspacesは車載前方シーン限定であったが,ADE20Kの登場により,多種多様なシーンに対するセマンティックセグメンテーションが研究しやすくなった.

5 複数スケールのコンテキストを活用する路線

2節と3節で紹介したFCN,SegNet,U-Netは,出力層の各画素位置の特徴ベクトルは,その特徴マップ上の各グリッド位置に対応する受容野(receptive field)の視野(field of view)がそれほど広くなかった.そのせいで,広範囲の周辺コンテキスト(周辺にどの別クラスが,どの位置に配置されているかの情報)が,詳しく(= 広範囲かつ複数解像度に)必要な画素では誤識別しがちであった.

そこで,伝統的なCNN登場より前の時代における画像認識の定番処理を思い返してみると,以下の2つが思いつく:

  1. 大きめのカーネルサイズ(あるいはストライド)の畳み込みを使用する.
  2. (画像 or 特徴ピラミッドや,Pyramid Poolingなどを用いて)複数スケール処理化する.

CNNセマンティックセグメンテーションでは,全画素において「密で高精度のコンテキスト情報(=特徴マップ)」を得る必要がある.したがって,上記 1. 2.を両方行うにしても,なるべく効率的な処理で済ませたい.また,事前学習済のバックボーンCNNで計算した特徴量に対して「後処理でプーリングを通じて,コンテキストを集める」のも,深層学習的には好ましい設計である.

従って,1.と2.をCNNにも採用する形で,以下の2つのコンテキスト取得方法が登場した:

  • Dilated convolution (atrous convolutionはDeepLabシリーズでの呼び方):受容野を効果的に広げる畳み込み層.広範囲のコンテキストを得るのが目的.
  • Spatial Pyramid Pooling:CNNバックボーンで得た特徴マップに,複数スケールの特徴をそれぞれプーリングした結果を追加する.複数スケールのコンテキストを特徴マップに加えるのが目的.

これら2つの技術の追加が始まることにより,広範囲・複数スケールのコンテキストを知っておく必要なシーン画像でも,高精度のセマンティックセグメンテーションが可能になり始めた.

以降5節では,それら2つの工夫を導入した代表的セマンティックセグメンテーション手法である DeepLab (5.1節)と,PSPnet (5.2節) について紹介していく.

5.1 DeepLab v1とv2:膨張畳み込み(Dilated convolution) による効率的なコンテキスト収集

Chenらは,畳み込み層として膨張畳み込み(Dilated convolution) [6] を用いたセグメンテーションネットワークのDeepLab v1 [7]を提案した.膨張畳み込みは,通常の畳み込み層よりも走査する画素範囲を膨張させて「疎に広く」畳み込む.従って,効率的に少数回で広範囲の情報を畳み込んでいくことで,少ない層数のCNNでも画像全体のコンテキストを収集しやすくなる.

同著者らは,次にDeepLab v2 [10]をジャーナル版として提案した.多重解像度プーリングであるSpatial Pyramid Pooling [8][9]にインスパイアされる形で,Atrous Spatial Pyramid Pooling(ASPP)を追加した.ASPPでは,4つの異なるサイズのカーネルを用いて,4段階の各スケールの特徴から並列にPoolingを行ったのち,それらを1つに合成する.これにより,広範囲のコンテキスト特徴を,多重解像度かつ密に集約できる.

DeepLab はv1の時点では,まだEnd-to-Endではなかった.Decorder終了後の出力はノイズ混じりなので,後半に旧式のセグメンテーション手段で用いられていた「CRF(Conditional Random Field)を用いたRefinement」を行う構成である.

しかしCRFとの併用というアイデアは,この研究あたりが最後であり,後続の研究ではCRFを用いずDeep Neural Networkのみでセグメンテーションを最後まで行うのが当たり前となっていく.

5.2 PSPNet:Spatial Pyramid Pooling による複数スケールの豊富なコンテキストの取得

PSPNet (Pyramid Scene Parsing Network) [10] (PSPnetのプロジェクトページ)は,SenseTimeの研究者とそのメインの母体であるCHUKの教員達による研究である.ISLVRC2016の優勝論文である.Spatial Pyramid Poolingをセグメンテーションにも応用することで,複数スケールの豊富なコンテキストも考慮した特徴マップを作成できることにより,広範囲コンテキストのおかげで誤識別しづらくなった,高精度のセマンティックセグメンテーションが可能となった.

PSPNet はCNNが出力した特徴マップに対して,後処理としてグリッド範囲の広さ別に平均プーリング(average pooling)を4回おこなう(Spatial) Pyramid Poolingモジュールを用いて,グリッド領域サイズ別にPoolingされた特徴マップを4チャンネル作成する ($2 \times 2$,$4 \times 4$,$8 \times 8$, 特徴マップ全グリッド[=画像全体]).そして,この4チャンネルの特徴を,元のCNN特徴マップの後ろに結合し,最終的なクラス識別の特徴として用いる.この仕組みにより,複数スケールのコンテキスト特徴(もとい,4解像度別のGloval Average Pooling特徴群)も考慮して,セグメンテーションネットワークを学習することができるようになった.

Global Average Poolingにより画像全体のコンテキストを利用する先行研究としては,ParseNet [11]が既に登場していた.それと比較した際のPSPNetの貢献は,画像識別向けのSpatial Pyramid Pooling [9]の先行例のように,Pyramidを用いて階層的にPoolingする仕組みをセグメンテーション向けに提案した点にある.

PSPNet の論文 [10]では,PASCAL VOC2012, ADE20K, Cityscapesの3つのデータセットを用いた実験を行っている.周辺コンテキスト情報不足によりFCNでは誤識別してしまうクラス領域でも,PSPNetだと正しく識別出来ることを実験結果により示した.ただし,ResNetバックボーンでの処理後にピラミッドプーリングまで行うので,計算コストは高く,リアルタイム処理には向かない.

6 DeepLab v3:デファクトスタンダード手法の登場

DeepLab v1, v2のチームは,更にDeepLabを改善したDeeplab v3 [12]を提案した.PSPNetのような広範囲のGlobalコンテキストも活用する手法にならって,[12]ではASPP (DeepLab v2で提案) を改良した改良型ASPPが提案された.

改良型ASPPでは,CNN特徴に対して「(a) ASPPを用いて4レベルのa-trous ConvolutionでPoolingする」横に,「(b)Global 画像Pooling」も追加している.そして「(c) 元のCNN特徴を$1 \times 1$ 畳み込みでチャネル次元削減してGlobal画像Pooling結果と結合する」ことで(ParseNetや,PSPnet のように)複数スケールのPyramidコンテキストを考慮した最終的な特徴マップを出力する.

DeepLab v3 [12] では,更なる工夫が行われた.v1, v2で行っていたCRFによる後処理を完全に廃止した.また,v2ではマルチスケールの3画像でそれぞれ個別に処理を行う「画像のマルチスケール処理」であったのを,CNNバックボーンの特徴マップに対して後からマルチグリッドスケール処理を行う「特徴のマルチスケール処理」に変更したことで,計算効率化を達成した.そして,Batch Normalizationも導入している.

また物体境界部分の精度改善を目的として,以下に挙げる改善を行った DeepLab v3+ [13] (ECCV2018)が,提案された :

  • 元はデコーダでは 膨張畳み込みが stride=16であったのを,層数を減らして代わりにアップサンプリングに変更した.これにより,シンプルな処理に変更しつつも,変更前と同等の受容野の広さを確保できている.
  • depthwiseにatrous convolution (dilated convolution)を行う atrous separable convolutionを導入し,更に計算コストを削減した.
  • バックボーンをResNetからXception に変更し,その畳み込み層もatrous separable convolutionに変更した.

これ以降,このDeepLab v3+が,(2019年後半まであたり)は,PSPNetとともにセマンティックセグメンテーション向けのネットワーク構造の第一選択肢となった.

7 まとめ

深層学習時代に解きやすくなった問題とも言える「画像のセマンティックセグメンテーション」の代表的な研究をたどり,その主要な工夫を紹介した.

セマンティックセグメンテーションでは,出力層の1画素ごとに,識別性の高い特徴ベクトルを畳み込みこんでおいて必要があり,各画素周辺の広範囲の周辺コンテキストやシーン全体のコンテキストを知っておく層やネットワークになっているほど,誤識別が減る.その目的達成のためには,「広範囲の周辺コンテキスト特徴を,多重解像度で集約する」仕組みを構築することが基本方針となる.

そこで,初期には,FCNや,その発展であるU-Net, SegNetでは,基盤となる「スキップ接続付きHourglass型 Encoder-Decoder モデル」が,基本的なネットワーク構造として提案された.

次に,PSPNet や DeepLabでは,複数スケールかつ広範囲のコンテキストを集約する工夫として,Dilated ConvolutionやSpatial Pyramid Pooling などが提案された.

7.1 「過学習」になりそうな工夫の怖さについて

この記事だけを読むと,5章などで「コンテキストを詳細に多重解像度的に学習することは良いことだ」という安直な結論に陥ってしまいがちである.しかし,各画素で周辺コンテキストをつぶさに取り込むことが必ずしも良い結果をもたらす訳ではない.なぜなら,コンテキスト情報を積極的に取り込むということは,同時に「バイアス(特にラベルの偏り)」も積極的に取り込んでしまい,過学習につながってしまう時もある悪い面も併せ持っているからである(と著者は以前から考えている).

5章の頃以降の(すなわち2017年ごろ以降)コンピュータビジョン業界では,そのような「データセットバイアス」に対抗するための研究は盛んとなっている.しかし,5章の手法が提案された当時は,まだ試し試し色々な手法をとりあえず提案しているセマンティックセグメンテーション問題の初期段階であった.従って,セマンティックセグメンテーションのみならず,CNNの研究全体でも「広範囲・多重解像度にコンテキストを獲得する技術の影響により起こうる過学習の危険性も,きちんと考慮して対策していこう」という段階には達していなかった事に注意が必要である.

例えば,dilated convolution を畳み込み画素位置まで可変にした可変畳み込み(deformable convolution)という層が最近使用されているが,これもベンチマークテストでは精度が向上しているものの,カーネルが学習した畳み込み画素位置が,クラスごとに可適合してしまいがちで,CNNの汎化性能を落としていそうな側面があると個人的に感じる.

References

  • [1] V. Badrinarayanan, A. Kendall, and R. Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. arXiv:1511.00561, 2015.
  • [2] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
  • [3] O. Ronneberger, P. Fischer, and T. Brox. U-Net: Convolutional Networks for Biomedical Image Segmentation, pages 234–241. Springer International Publishing, Cham, 2015
  • [4] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The Cityscapes Dataset for Semantic Urban Scene Understanding. In CVPR, 2016.
  • [5] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba. Scene parsing through ADE20K dataset. In, CVPR (2017)
  • [6] Yu, Fisher, and Vladlen Koltun. “Multi-Scale Context Aggregation by Dilated Convolutions.” arXiv 2015.
  • [7] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015.
  • [8] S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR, 2006.
  • [9] K.He, X.Zhang, S.Ren, and J.Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014.
  • [10] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. TPAMI, 2017.
  • [11] W. Liu, A. Rabinovich, and A. C. Berg. Parsenet: Looking wider to see better. arXiv:1506.04579, 2015.
  • [12] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. arXiv:1706.05587, 2017.
  • [13] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In ECCV, 2018.
  • [14] Zhao, H., Shi, J., Qi, X., Wang, X., Jia, J.: Pyramid scene parsing network. In: CVPR. (2017)

外部参照リンク

関連記事