1 概要
局所応答正規化(Local Response Normalization, LRN)とは,特徴マップの局所コントラストの強調を行う,画像認識用のCNNにおいて,中間層の応答に対して行う局所正規化(Local Normalization)手法の1種である.
局所応答正規化は,大規模画像認識CNNの初期提案である AlexNet [Krizhevsky et al,. 2012] で提案され,ReLU や バッチ正規化 登場前の,初期のAlexNetのCNN以降で使われていた.
局所応答正規化は,CNNの畳み込み層やプーリング層の応答の局所正規化を行い,各層の出力値をチャンネル方向で局所的に正規化する.これによりCNNの汎用性(generalization)を高める効果がある.また,正規化層を追加した際の一般的な効能として,CNN学習の安定化の効果も得られているかもしれない(※ 本当に局所正規化が最適化の安定に効いてるかは,著者は,よくわからない).
2. 局所応答正規化(Local Response Normalization)の詳細
2.1 Local Response Normalization の詳細
ここでは,AlexNet [Krizhevsky et al,. 2012] の論文における,局所応答正規化の詳細を紹介する.
関連記事:AlexNet: 大規模な画像物体認識むけCNNの元祖
局所応答正規化は ,神経生物学における周辺ニューロンを抑制して自ニューロンをコントラスト強調する「lateral inhibition」という機構インスパイアされた仕組みである.CNNにおける局所応答正規化でも,周辺チャンネルのニューロンの応答から,近傍チャンネルの値を元に,チャンネル方向に局所正規化した値を出力する.
主に活性化層(tanhやReLUの後)の応答出力に対して,局所応答正規化を行う.
2.1.1 処理手順と関数の中身
まず$l$層目におけるの特徴マップを局所応答正規化の入力とし,$C$チャンネルで構成されるその特徴マップ(=応答)のチャンネル$c$における空間座標$(x,y)$の値を$a^{(l)}_{c,x,y}$とする.また,出力には,入力と同サイズの正規化済みのサイズ$C \times W \times H$の特徴マップが出力されるものとし,その出力値を$b^{(l)}_{c,x,y} $とする.
チャンネル $c$ の前後近傍のチャンネルから構成される,計$n$枚のチャンネル$c_n = \{ -\frac{n}{2}, \ldots,0,\ldots,\frac{n}{2} \}$において,同一空間位置$(x,y)$の値群を用いた正規化をおこなう:
\begin{equation}
b^{(l)}_{c,x,y} =
\frac{a^{(l)}_{c,x,y}}{
\left(
k+ \alpha \sum_{c_n = \max(0,c – \frac{n}{2})}^{\min(C-1, c+\frac{n}{2})}
(a^{(l)}_{c_n,x,y})^2
\right)^{\beta}
}\tag{2.1}
\end{equation}
この式(2.1)の解説を,以下に箇条書きでまとめる:
- $\alpha,\beta,k,n$ は,ユーザーが値を決めるハイパーパラメータである(つまりLRN層は,学習可能な層ではない).
- 右辺の分母は,局所近傍内での分散(のような値)を計算しており,各値$a^{(l)}_{c,x,y}$をこの分母で割ることで正規化する.分母の,重みパラメータ$\alpha$,バイアス$k$,分母全体の指数パラメータ$\beta$をもちいることにより,局所内のコントラスト調整度合いをユーザーが指定できる.
- 通常は近傍$n$個の応答から正規化を行うが,$\min,\max$により,特徴マップ範囲外の値にアクセスしないように範囲制御を行なっている.
論文中での各パラメータの初期値は$\alpha = 10^{−4}, \beta = 0.75,k = 2, n = 5$である.
2.1.2 長所と短所
2.1.1節で示した操作により,特徴マップ全体が各局所でコントラスト調整された結果,各局所で極値のみが強調された特徴マップに変化する.つまり,各中間層の特徴マップを局所コントラストに不変(Local contrast invariant)な特徴マップに変換することができるゆえ,CNNの汎用性が向上する長所が出てくる.
また,バッチ正規化などの他の正規化と同様に,逆伝播での学習中に局所正規化もおこなう.したがって,学習を安定化させているかもしれない(本当に局所正規化がCNN最適化に効いているかどうかは不明).
一方で,チャンネル方向の正規化なので,画像特徴マップのような「複数チャンネル表現のビジュアル特徴」にしか適用できず,バッチ正規化のように「様々なモーダルの特徴ベクトルに使用できる汎用性」は備えていない.加えて,局所表現を(半ば適当に)変えている意味で,全体の表現も変わってしまい,局所正規化しない表現よりも識別性能を下げしまう可能性もある.
2.2 局所コントラスト正規化との違い
従来手法の局所コントラスト正規化(Local Contrast Normalization, LCN) [Jarret et al., 2009] も,LRNと同様に局所チャンネル正規化を行う仕組みであるが,両者では正規化の操作が微妙に異なる.
AlexNet論文 [Krizhevsky et al,. 2012] のLRNの節(3.3)でも書かれているように,LCN [Jarret et al., 2009] では,分散で割るのは同じなものの,平均値を除去することも行う点が異なる.逆にいうと,AlexNetでは,LCNから平均を差し引く部分を省略したものをLRNと名付けて,$\alpha,\beta$とバイアス項$k$でパラメトライズした上で使用したともいえる.
また,局所コントラスト正規化 [Jarret et al., 2009] は,「1チャンネル内」の「局所窓内」での正規化を行う.これはHOG特徴における局所コントラスト正規化と同じような窓内コントラスト正規化である.一方で,本記事の局所応答正規化は,$n$チャンネル間の同一座標位置(1画素内)で正規化を行うものであり,局所窓を広げたりはしない.
ちなみに,これら2つをハイブリッドにした改善案として,局所立方体窓内で正規化をおこなう局所コンテキスト正規化(Local Context Normalization)[Oritz et al., 2020] が最近提案された.LCNは認識やセグメンテーションタスクの基礎実験でグループ正規化に匹敵する性能をマークした.したがって,今後よく使われていく可能性もある.
3. まとめ
この記事では,AlexNetで提案された「局所応答正規化」について紹介した.
近年のCNNの中間層での正規化は,局所正規化は用いずに,主にバッチ正規化が行われる.
参考書籍
References
- [Jarret et al., 2009] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In ICCV, 2009.
- [Krizhevsky et al,. 2012] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks. In NIPS, 2012
- [Oritz et al., 2020] Ortiz, A., Robinson, C., Morris, D., Fuentes, O., Kiekintveld, C., Hassan, M. M., & Jojic, N. Local context normalization: Revisiting local normalization. In CVPR, 2020.
参照外部リンク
- YouTube | Local Response Normalization for Deep Learning Explained ,by Yacine Mahdid
- Pediaa | Difference Between Excitatory and Inhibitory Neurons
- Slideshare | Inhibition in cns 1
- Qiita | Batch normalization(BN)の正体に迫る論文とBNの代わりになるかもしれないNormalizationの論文まとめ