教師なし学習(Unsupervised Learning)

Unsupervised Learning の概要

教師なし学習 ( Unsupervised learning )とは、正しい正解ラベルは与えられていないデータ集合$\cal{D} = \{\mathbf{x}_1,\mathbf{x}_2,\ldots,\bf{x}_N\}$に対して,何らかの本質的な共通要素や潜在的構造などを見出し,その後の未知パターンの分類や識別などに役立てる機械学習を指す.言い換えると,ラベル付けがなされていない特徴ベクトル$\bf{x}_{i} \in\mathbb{R}$がN個与えられた中で,その特徴ベクトル同士の近さ・遠さや,それら全体の分布や潜在的な構造を利用して行う機械学習手法全般のことを指す.すなわち「ラベルを用いないでデータのみから学習する」という意味で「教師なし学習」と呼ぶ.

教師なし学習の代表的なサブカテゴリとしては,クラスタリング(k-means)や混合モデリングを用いたグラフィカル生成モデル(例:GMMやLatent Dirichlet Allocation)などが挙げられる.

クラスタリング以外の代表的な教師なし学習のサブカテゴリとしては,例えば潜在線形モデル(PCA,ICA)やスパース線形モデル(L1正則化など)がよく用いられてきた.また,非線形次元削減(Nonlinear dimensionality reduction)との例としては,非負値行列分解(Non-negative matrix factorization),低ランク行列近似(Low-rank Matrix Approximation),多様体学習(manifold learning)などが挙げられる.

深層学習における Unsupervised Learning

Deep Neural Networkを用いた教師なし学習としては,Deep生成モデルとしてAutoencoders,Restricted Boltzman Machine (RBM), Deep Belief Networks,Variational Auto Encoders (VAE)Generative adversarial networks (GAN)などが挙げらる.

古典的な潜在部分空間モデルを用いた隠れ属性の抽出手法と異なり,Deep生成モデルの潜在変数ベクトル$\bf{z}$の各次元に相互独立的な属性パラメータを学習したり,教師なしで2つ以上の相互独立的概念のEncoderペア (例えばPose EncoderとApperance Encoder) を学習するような,もつれほどき(Disentanglement)の研究も,GANの登場以降ここ数年活発である.

教師無し学習手法のうち,柔軟に他のアルゴリズムや部品と結合できやすい「グラフィカルモデル」系のものや,Deep Neural Networks系のモデルの場合,それらは部品の繋ぎ合わせでモデルを設計できるので,教師信号なども条件付けやサブ入力に使用したような拡張版モデルも設計しやすい.また,教師なし学習や生成モデルでは,上述の各教師なし学習モデルとの組み合わせた学習アルゴリズムを設計することも少なくない (例:Supervised LDA,Auxiliary classifier GANなど).

References

  • “Machine Learning: An Algorithmic Perspective, Second Edition”, Stephen Marsland, Chapman and Hall/CRC ,2014.
  • “Machine Learning: A Probabilistic Perspective”, Kevin Patrick Murphy, MITPress, 2013.

外部リンク