局所応答正規化(Local Response Normalization)

1 概要

局所応答正規化(Local Response Normalization, LRN)とは,特徴マップの局所コントラストの強調を行う,画像認識用の畳み込みニューラルネットワーク(CNN)の中間出力向けの局所正規化手法の1種である.局所応答正規化は,大規模画像認識CNNの初期提案である AlexNet [Krizhevsky et al,. 2012] で提案され,ReLUバッチ正規化 登場前の,初期のCNN(AlexNet以降)で,よく使われていた.

局所応答正規化は,CNNの畳み込み層やプーリング層の応答の局所正規化を行い,各層の出力値をチャンネル方向で局所的に正規化することにより,効率的な正規化をおこなう手法である.これにより,CNNの汎用性(generalization)を高める効果がある.また,正規化層を追加した際の一般的な効能として,CNN学習の安定化の効果も得られているかもしれない(※ 本当に局所正規化がCNNの最適化に効いてるかについては,まだ理論的に解明されていない).

2 局所応答正規化(Local Response Normalization)の詳細

2.1 Local Response Normalization の詳細

ここでは,AlexNet [Krizhevsky et al,. 2012] の論文における局所応答正規化の詳細を紹介する.

局所応答正規化は ,神経生物学における周辺ニューロンを抑制して自ニューロンをコントラスト強調する「lateral inhibition」という機構インスパイアされた仕組みである.CNNにおける局所応答正規化でも,周辺チャンネルのニューロンの応答から,近傍チャンネルの値を元に,チャンネル方向に局所正規化した値を出力する.

主に活性化層(畳み込み後や,プーリング後のtanhやReLUの後)の応答出力に対して,局所応答正規化を行う.

2.1.1 処理手順と関数の中身

まず$l$層目におけるの特徴マップを局所応答正規化の入力とし,$C$チャンネルで構成されるその特徴マップ(=応答)のチャンネル$c$における空間座標$(x,y)$の値を$a^{(l)}_{c,x,y}$とする.また,出力には,入力と同サイズの正規化済みのサイズ$C \times W \times H$の特徴マップが出力されるものとし,その出力値を$b^{(l)}_{c,x,y} $とする.

チャンネル $c$ の前後近傍のチャンネルから構成される,計$n$枚のチャンネル$c_n = \{ -\frac{n}{2}, \ldots,0,\ldots,\frac{n}{2} \}$において,同一空間位置$(x,y)$の値群を用いた正規化をおこなう:

\begin{equation}
b^{(l)}_{c,x,y} =
\frac{a^{(l)}_{c,x,y}}{
\left(
k+ \alpha \sum_{c_n = \max(0,c – \frac{n}{2})}^{\min(C-1, c+\frac{n}{2})}
(a^{(l)}_{c_n,x,y})^2
\right)^{\beta}
}\tag{2.1}
\end{equation}

この式(2.1)の解説を,以下に箇条書きでまとめる:

  • $\alpha,\beta,k,n$ は,ユーザーが値を決めるハイパーパラメータである(つまりLRN層は,学習可能な層ではない).
  • 右辺の分母は,局所近傍内での分散(のような値)を計算しており,各値$a^{(l)}_{c,x,y}$をこの分母で割ることで正規化する.分母の,重みパラメータ$\alpha$,バイアス$k$,分母全体の指数パラメータ$\beta$をもちいることにより,局所内のコントラスト調整度合いをユーザーが指定できる.
  • 通常は近傍$n$個の応答から正規化を行うが,$\min,\max$により,特徴マップ範囲外の値にアクセスしないように範囲制御を行なっている.

論文中での各パラメータの初期値は$\alpha = 10^{−4}, \beta = 0.75,k = 2, n = 5$である.

2.1.2 長所と短所

2.1.1節で示した操作により,特徴マップ全体が各局所でコントラスト調整された結果,各局所で極値のみが強調された特徴マップに変化する.つまり,各中間層の特徴マップを局所コントラストに不変(Local contrast invariant)な特徴マップに変換することができるゆえ,CNNの汎用性が向上する長所が出てくる.

また,バッチ正規化などの他の正規化と同様に,逆伝播での学習中に局所正規化もおこなう.したがって,学習を安定化させているかもしれない(本当に局所正規化がCNN最適化に効いているかどうかは不明).

一方で,チャンネル方向の正規化なので,画像特徴マップのような「複数チャンネル表現のビジュアル特徴」にしか適用できず,バッチ正規化のように「様々なモーダルの特徴ベクトルに使用できる汎用性」は備えていない.加えて,局所表現を(半ば適当に)変えている意味で,全体の表現も変わってしまい,局所正規化しない表現よりも識別性能を下げしまう可能性もある.

2.2 局所コントラスト正規化との違い

従来手法の局所コントラスト正規化(Local Contrast Normalization, LCN) [Jarret et al., 2009] も,LRNと同様に局所チャンネル正規化を行う仕組みであるが,両者では正規化の操作が微妙に異なる.

AlexNet論文 [Krizhevsky et al,. 2012] のLRNの節(3.3)でも書かれているように,LCN [Jarret et al., 2009] では,分散で割るのは同じなものの,平均値を除去することも行う点が異なる.逆にいうと,AlexNetでは,LCNから平均を差し引く部分を省略したものをLRNと名付けて,$\alpha,\beta$とバイアス項$k$でパラメトライズした上で使用したともいえる.

また,局所コントラスト正規化 [Jarret et al., 2009] は,「1チャンネル内」の「局所窓内」での正規化を行う.これはHOG特徴における局所コントラスト正規化と同じような窓内コントラスト正規化である.一方で,本記事の局所応答正規化は,$n$チャンネル間の同一座標位置(1画素内)で正規化を行うものであり,局所窓を広げたりはしない.

ちなみに,これら2つをハイブリッドにした改善案として,局所立方体窓内で正規化をおこなう局所コンテキスト正規化(Local Context Normalization)[Oritz et al., 2020] が最近提案された.LCNは認識やセグメンテーションタスクの基礎実験でグループ正規化に匹敵する性能をマークした.したがって,今後よく使われていく可能性もある.

3. 局所応答正規化(Local Response Normalization)のまとめ

この記事ではAlexNetで提案された局所応答正規化について,簡単にだけ紹介した.

近年のCNNの各層の正規化は,局所正規化は用いずに,主にバッチ正規化や行われるようになっている.

References

  • [Jarret et al., 2009] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In ICCV, 2009.
  • [Krizhevsky et al,. 2012] Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks. In NIPS, 2012
  • [Oritz et al., 2020] Ortiz, A., Robinson, C., Morris, D., Fuentes, O., Kiekintveld, C., Hassan, M. M., & Jojic, N. Local context normalization: Revisiting local normalization. In CVPR, 2020.

参照外部リンク

関連記事

参考書籍