✳️ディープラーニングの用語wiki記事 [一覧]

このページの概要

📚用語Wikiの記事のうち，ディープラーニング (Deep learning) 記事カテゴリーに属する一覧を，階層的に記事リンクつきで示している一覧ページです．deep learningを用いたコンピュータビジョンの用語記事も，この「✳️ディープラーニング」カテゴリに含めているゆえ，サイトのホームの次くらいに，このページは起点ページです(継続的な利用者は，このページへ頻繁にアクセスしてください)．

このページ/カテゴリーの各用語は，サイトの主テーマである「コンピュータビジョン」「画像認識」むけの「ディープラーニング用語」の解説記事が中心ですが，他分野の「自然言語処理(NLP)や音声認識・音響処理系」などの記事も含めています(※)．

※ディープラーニングの登場後，特に系列変換モデルとアテンションやTransformerの流行以降に，コンピュータビジョンと他のマルチメディア分野(音やテキスト)と，解法・アプローチが似てきたり，モデルも共通化・クロスモーダル化しています．

タスクとモデルに分類

このページでは，各用語を(CVやNLP等の)タスク(1節)と(deep learningの)モデル(2節)に分類し，さらにその中でもグループ化して，全用語記事(へのリンク)を一覧化しています．「0．トップ2階層の記事のみ厳選」では，まず先に「重要なタスク・モデルのみ」を厳選して一覧化しています．

この「厳選モデルタスク一覧(0節)」を日常的に使用すると，(まだ中級者には達していない方ほど) 俯瞰力がつく上に，「上位の階層記事へのショートカット集」としても機能しやいすいはずです．

※ 0節に列挙している「最重要なモデル・タスク」への理解度・習熟度の高さが，仕事で独自に応用する際の質・レベルへと直結するとおもいます．それ以上の細かい話は「瑣末な枝葉概念」であったり，最重要のモデル・タスクを「後で応用・発展させたもの」に過ぎません．

non-deep learningな「CV・NLP」や「機械学習」は別カテゴリで．

non-deep learningなCVの手法・問題設定が中心の「伝統的なコンピュータビジョン」についてはコンピュータビジョン(non-deep)の用語記事の一覧を参照してください：

📷 コンピュータビジョン(non-deep 中心)の用語wiki記事 [一覧]

同様に，non-deep learning時代の以前の自然言語処理については，以下の自然言語処理の用語記事の一覧を参照してください (ただし，こちらはdeep learning後も含みます)：

自然言語処理の用語wiki記事 [一覧]

0. トップ2階層の記事のみ厳選

※ 「リンクはまだ無いが，タイトル案だけ列挙してある用語」は，今後書きたい記事の候補です

0.2 タスク (厳選)

物体認識 (画像分類)
- 細粒物体認識

物体検出
- 基本要素：
- 物体検出ネック：
  - FPNとその発展型
- アンカー有り2ステージ型：
- アンカー有り1ステージ型：
  - YOLO v1, v2
  - SSD
- 密な物体検出：
  - RetinaNet (とFocal Loss関数)
  - FCOS

人物姿勢推定 (Human Pose Estimation)

画像変換モデル
- pix2pix
- CycleGAN

Vision-Language
- 画像キャプション生成 (1) 基本編

0.1 モデル (厳選)

Encoder-Decoder ネットワーク

CNN(畳み込みニューラルネット)
- CNNバックボーン[まとめ年表]
  - LeNet , Alex Net
  - VGGNet , InceptionNet
  - ResNet , DenseNet , ResNeXt

層(layers) ：
- 線形層：
  - 畳み込み層
  - 全結合層
- スキップ接続と残差接続
- 埋め込み層

正則化 (Regularizaiton)
- バッチ正規化とその発展型
- 早期停止 (early stopping)
- L2正則化 (weight Decay)
- データ拡張(Data Augmentation)
- ラベル平滑化
- ドロップアウト

学習・最適化
- 転移学習:
  1. 事前学習
  2. ファイン・チューニング

RNN(再帰型ニューラルネット)
- LSTM
- GRU
- RNNLM

系列変換モデルとアテンション機構
- seq2seq ,
- seq2seq with attention
- Transformer

深層生成モデル
- GAN
  - DCGAN
- VAE
- 評価スコア
  - Inceptionスコア
  - FIDスコア

1. タスク

1.1 物体認識

物体認識(Object Recognition)
- 細粒度物体認識(Fine-grained Object Recognition)

1.5 動画からの行動理解

3D動画表現CNN
- C3D
- I3D
- ResNet3D
行動認識 (Action Recognition)
行動検出 (Action Detection)
行動分割 (Action Segmentation)

1.6 画像対画像変換モデル

画像変換(Image-to-Image Translation)
- pix2pix
- CycleGAN
画像スタイル変換
画像補間ネットワーク
超解像ネットワーク

1.7 3D点群処理（ディープラーニング）

PointNet
VoteNet

2. モデル

Encoder-Decoder ネットワーク [ディープラーニングの文脈で]

2.1 CNN

畳み込みニューラルネットワーク (CNN)
正則化 (Regularization)
- 早期停止
- バッチ正規化とその発展型
  - レイヤー正規化 (Layer Normalization)
- L2正則化 (weight decayによる過学習抑制)：
- ドロップアウト
- 画像のデータ拡張
- ラベル平滑化による正則化
局所正規化
- 局所応答正規化(Local Response Normalization)
マルチスケール化のためのCNN拡張
- Feature Pyramid Networks (FPN) とその発展型
CNNバックボーン(backbone)の代表的アーキテクチャの歴史 [まとめ年表]

2.2 表現と層

表現(representation)
- one-hotベクトル [ディープラーニングの文脈で]
層間の接続
- スキップ接続(skip connection)
- 残差接続(residual connection)

層(layers)
- 全結合層(fully-connected layer)
- 畳み込み(convolution layer)層とその発展型
- バッチ正規化(Batch Normalization)とその発展型
- プーリング層(Pooling Layer)とその発展型
  - グローバル平均プーリング(Global Average Pooling)
  - 平均プーリング(Average Pooling)
  - インスタンス領域内プーリング：
    - ROI pooling(関心領域プーリング)
    - ROI align (関心領域アライン) for Mask R-CNN
  - 最大値プーリング(Max Pooling)
  - 空間ピラミッドプーリング層 (SPP)とその応用例や発展型
- 活性化関数(activation function)[ディープラーニング向け]
  - 中間層むけ：
    - ReLUとその発展型
      - GELU(Gauusian Error Linear Unit
  - 出力層むけ：
- 埋め込み層(Embedding Layer) [自然言語処理の文脈で]
- 出力層と損失関数:
  - CNNの損失関数(Loss Function) その(1): 交差エントロピーとMSE

2.3 学習方法

重み初期化(weight initializaiton): Xavier初期化と He初期化
重み共有
勾配消失 (in ディープラーニング)とその対処法リスト
SGD（確率的勾配降下法）とその発展型
- Adam, AdaGrad, RMSProp
学習方法(learning-method)：
- スクラッチからの学習(learning from scratch)
- 少量のラベル付きデータからの学習
  - データ拡張(Data Augmentation, データ増大)
  - 転移学習 (Transfer Learning) [深層学習・CNN向け]：
    - 事前学習 (pre-training)
      - 教師あり事前学習(Supervised pre-training)
      - 自己教師有り学習(Self-supervised learning)
    - ファインチューニング (fine-tuning, 精密調整)
    - ドメイン適応(Domain Adaptation)
  - 半教師あり学習(Semi-supervised Learning)
  - 自己教師あり学習
end-to-end学習(端対端学習)

2.4 RNN，生成モデルと系列変換

再帰型ニューラルネットワーク(RNN)
- LSTM(Long Short-Term Memory)
- GRU(Gated Recurrent Unit)
RNNLM(再帰型ニューラル言語モデル)
- ビームサーチによる系列デコーディング
系列対変換とアテンション(注意)機構

2.5 深層生成モデルと画像変換

深層生成モデル(Deep Generative Model)

2.6 距離学習

ランキング学習ネットワーク：
- Siamese Network
- Triplet loss研究用語

3.1 Vision and Language

3.1.1 画像キャプション生成

画像キャプション生成 (Image Captioning): (1) 基本編

3.1.2 画像グラウンディング

画像グラウンディング (Image Grounding)

3.1.3 画像テキスト間埋め込み

画像テキスト間埋め込み (Image-Text Embedding) 視覚意味間埋め込み[Visual Semantic Embedding]

4 その他

4.1 ディープラーニング用語のうちmisc

4.2 研究でみかける専門用語

同時研究

CVMLエキスパートガイド

コンピュータビジョン中級者以上向けの「探究の拠点サイト」

✳️ディープラーニングの用語wiki記事 [一覧]

このページの概要

タスクとモデルに分類

non-deep learningな「CV・NLP」や「機械学習」は別カテゴリで．

0. トップ2階層の記事のみ厳選

0.2 タスク (厳選)

0.1 モデル (厳選)

1. タスク

1.1 物体認識

1.2 物体検出

1.3 意味的分割と実体分割

1.4 人物姿勢推定

1.5 動画からの行動理解

1.6 画像対画像変換モデル

1.7 3D点群処理（ディープラーニング）

2. モデル

2.1 CNN

2.2 表現と層

2.3 学習方法

2.4 RNN，生成モデルと系列変換

2.5 深層生成モデルと画像変換

2.6 距離学習

3.1 Vision and Language

3.1.1 画像キャプション生成

3.1.2 画像グラウンディング

3.1.3 画像テキスト間埋め込み

4 その他

4.1 ディープラーニング用語のうちmisc

4.2 研究でみかける専門用語

サイトの概要

当サイトの指定参考書

人気の記事

このページの概要

タスクとモデルに分類

non-deep learningな「CV・NLP」や「機械学習」は別カテゴリで．

0. トップ2階層の記事のみ厳選

0.2 タスク (厳選)

0.1 モデル (厳選)

1. タスク

1.1 物体認識

1.2 物体検出

1.3 意味的分割と実体分割

1.4 人物姿勢推定

1.5 動画からの行動理解

1.6 画像対画像変換モデル

1.7 3D点群処理（ディープラーニング ）

2. モデル

2.1 CNN

2.2 表現と層

2.3 学習方法

2.4 RNN，生成モデルと系列変換

2.5 深層生成モデルと画像変換

2.6 距離学習

3. マルチモーダル・クロスモーダルなディープラーニング

3.1 Vision and Language

3.1.1 画像キャプション生成

3.1.2 画像グラウンディング

3.1.3 画像テキスト間埋め込み

4 その他

4.1 ディープラーニング用語のうちmisc

4.2 研究でみかける専門用語

サイトの概要

当サイトの指定参考書

人気の記事

1.7 3D点群処理（ディープラーニング）