教師なし学習(Unsupervised learning)

0

概要

教師なし学習(Unsupervised learning)とは、正しい正解ラベルは与えられていないデータ集合$\cal{D} = \{\mathbf{x}_1,\mathbf{x}_2,\ldots,\bf{x}_N\}$に対して,何らかの本質的な共通要素や潜在的構造などを見出し,その後の未知パターンの分類や識別などに役立てる機械学習を指す.言い換えると,ラベル付けがなされていない特徴ベクトル$\bf{x}_{i} \in\mathbb{R}$がN個与えられた中で,その特徴ベクトル同士の近さ・遠さや,それら全体の分布や潜在的な構造を利用して行う機械学習手法全般のことを指す.すなわち「ラベルを用いないでデータのみから学習する」という意味で「教師なし学習」と呼ぶ.

教師なし学習の代表的なサブカテゴリとしては,クラスタリング(k-means)や混合モデリングを用いたグラフィカル生成モデル(例:GMMやLatent Dirichlet Allocation)などが挙げられる.

クラスタリング以外の代表的な教師なし学習のサブカテゴリとしては,例えば潜在線形モデル(PCA,ICA)やスパース線形モデル(L1正則化など)がよく用いられてきた.また,非線形次元削減(Nonlinear dimensionality reduction)との例としては,非負値行列分解(Non-negative matrix factorization),低ランク行列近似(Low-rank Matrix Approximation),多様体学習(manifold learning)などが挙げられる.

深層学習を用いた教師なし学習

Deep Neural Networkを用いた教師なし学習としては,Deep生成モデルとしてAutoencoders,Restricted Boltzman Machine(RBM), Deep Belief Networks,Variational Auto Encoder(VAE)Generative adversarial networks(GAN)などが挙げらる.

古典的な潜在部分空間モデルを用いた隠れ属性の抽出手法と異なり,Deep生成モデルの潜在変数ベクトル$\bf{z}$の各次元に相互独立的な属性パラメータを学習したり,教師なしで2つ以上の相互独立的概念のEncoder(例えばPose EncoderとApperance Encoder)を学習するような縺れほどき(Disentanglement)の研究も,ここ数年活発である.

教師無し学習手法のうち,柔軟に他のアルゴリズムや部品と結合できやすい「グラフィカルモデル」系のものや,Deep Neural Networks系のモデルの場合,教師信号も使用できる拡張モデルも容易に作れる.また,教師なし学習や生成モデルでは,上述の各教師なし学習モデルとの組み合わせのアルゴリズムを設計することも少なくない(例:Supervised LDA,Auxiliary classifier GANなど).

References

  • “Machine Learning: An Algorithmic Perspective, Second Edition”, Stephen Marsland, Chapman and Hall/CRC ,2014.
  • “Machine Learning: A Probabilistic Perspective”, Kevin Patrick Murphy, MITPress, 2013.

外部リンク

0