このページの概要
📚用語Wikiの記事のうち,ディープラーニング (Deep learning) 記事カテゴリーに属する一覧を,階層的に記事リンクつきで示している一覧ページです.deep learningを用いたコンピュータビジョンの用語記事も,この「✳️ディープラーニング」カテゴリに含めているゆえ,サイトのホームの次くらいに,このページは起点ページです(継続的な利用者は,このページへ頻繁にアクセスしてください).
このページ/カテゴリーの各用語は,サイトの主テーマである「コンピュータビジョン」「画像認識」むけの「ディープラーニング用語」の解説記事が中心ですが,他分野の「自然言語処理(NLP)や音声認識・音響処理系」などの記事も含めています(※).
※ディープラーニングの登場後,特に系列変換モデルとアテンションやTransformerの流行以降に,コンピュータビジョンと他のマルチメディア分野(音やテキスト)と,解法・アプローチが似てきたり,モデルも共通化・クロスモーダル化しています.
タスクとモデルに分類
このページでは,各用語を(CVやNLP等の)タスク(1節)と(deep learningの)モデル(2節)に分類し,さらにその中でもグループ化して,全用語記事(へのリンク)を一覧化しています.「0.トップ2階層の記事のみ厳選」では,まず先に「重要なタスク・モデルのみ」を厳選して一覧化しています.
この「厳選モデルタスク一覧(0節)」を日常的に使用すると,(まだ中級者には達していない方ほど) 俯瞰力がつく上に,「上位の階層記事へのショートカット集」としても機能しやいすいはずです.
※ 0節に列挙している「最重要なモデル・タスク」への理解度・習熟度の高さが,仕事で独自に応用する際の質・レベルへと直結するとおもいます.それ以上の細かい話は「瑣末な枝葉概念」であったり,最重要のモデル・タスクを「後で応用・発展させたもの」に過ぎません.
non-deep learningな「CV・NLP」や「機械学習」は別カテゴリで.
non-deep learningなCVの手法・問題設定が中心の「伝統的なコンピュータビジョン」についてはコンピュータビジョン(non-deep)の用語記事の一覧を参照してください:
同様に,non-deep learning時代の以前の自然言語処理については,以下の自然言語処理の用語記事の一覧を参照してください (ただし,こちらはdeep learning後も含みます):
0. トップ2階層の記事のみ厳選
※ 「リンクはまだ無いが,タイトル案だけ列挙してある用語」は,今後書きたい記事の候補です
0.2 タスク (厳選)
- 物体認識 (画像分類)
- 細粒物体認識
- 画像変換モデル
- pix2pix
- CycleGAN
- Vision-Language
0.1 モデル (厳選)
- 正則化 (Regularizaiton)
- バッチ正規化とその発展型
- 早期停止 (early stopping)
- L2正則化 (weight Decay)
- データ拡張(Data Augmentation)
- ラベル平滑化
- ドロップアウト
- 学習・最適化
- 転移学習:
- 事前学習
- ファイン・チューニング
- 転移学習:
1. タスク
1.1 物体認識
- 物体認識(Object Recognition)
- 細粒度物体認識(Fine-grained Object Recognition)
1.2 物体検出
- 物体検出(Object Detection)
- 物体検出の基本技術:
- 物体検出で用いるモジュール層
- 物体検出の評価指標
- マルチスケール画像CNNむけ拡張ネック
- アンカーボックスベース手法:
1.3 意味的分割と実体分割
1.4 人物姿勢推定
- 人物姿勢推定(Monocular Human Pose Estimation)(2Dスケルトン姿勢の推定)
- Stacked Hourglass Network
- OpenPose – Part Affinity Fieldsを用いた複数人物姿勢推定CNN
- ヒートマップ画像 (Heat Map )
- Stacked Hourglass Network
- 画像からの3D人物姿勢推定 (3D Human Pose Estimation)
- 画像からの3D人物メッシュ再構成 (Human Mesh Recovery).
1.5 動画からの行動理解
- 3D動画表現CNN
- C3D
- I3D
- ResNet3D
- 行動認識 (Action Recognition)
- 行動検出 (Action Detection)
- 行動分割 (Action Segmentation)
1.6 画像対画像変換モデル
- 画像変換(Image-to-Image Translation)
- pix2pix
- CycleGAN
- 画像スタイル変換
- 画像補間ネットワーク
- 超解像ネットワーク
1.7 3D点群処理(ディープラーニング )
- PointNet
- VoteNet
2. モデル
2.1 CNN
- 畳み込みニューラルネットワーク (CNN)
- 正則化 (Regularization)
- 早期停止
- バッチ正規化とその発展型
- L2正則化 (weight decayによる過学習抑制):
- ドロップアウト
- 画像のデータ拡張
- ラベル平滑化による正則化
- 局所正規化
- マルチスケール化のためのCNN拡張
- CNNバックボーン(backbone)の代表的アーキテクチャの歴史 [まとめ年表]
2.2 表現と層
- 表現(representation)
- 層間の接続
- 層(layers)
- 全結合層(fully-connected layer)
- 畳み込み(convolution layer)層とその発展型
- バッチ正規化(Batch Normalization)とその発展型
- プーリング層(Pooling Layer)とその発展型
- グローバル平均プーリング(Global Average Pooling)
- 平均プーリング(Average Pooling)
- インスタンス領域内プーリング:
- ROI pooling(関心領域プーリング)
- ROI align (関心領域アライン) for Mask R-CNN
- 最大値プーリング(Max Pooling)
- 空間ピラミッドプーリング層 (SPP)とその応用例や発展型
- 活性化関数(activation function)[ディープラーニング向け]
- 中間層むけ:
- 出力層むけ:
2.3 学習方法
- 重み初期化(weight initializaiton): Xavier初期化と He初期化
- 重み共有
- 勾配消失 (in ディープラーニング)とその対処法リスト
- SGD(確率的勾配降下法)とその発展型
- Adam, AdaGrad, RMSProp
- 学習方法(learning-method):
- スクラッチからの学習(learning from scratch)
- 少量のラベル付きデータからの学習
- データ拡張(Data Augmentation, データ増大)
- 転移学習 (Transfer Learning) [深層学習・CNN向け]:
- 事前学習 (pre-training)
- 教師あり事前学習(Supervised pre-training)
- 自己教師有り学習(Self-supervised learning)
- ファインチューニング (fine-tuning, 精密調整)
- ドメイン適応(Domain Adaptation)
- 事前学習 (pre-training)
- 半教師あり学習(Semi-supervised Learning)
- 自己教師あり学習
- end-to-end学習(端対端学習)
2.6 距離学習
- ランキング学習ネットワーク:
- Siamese Network
- Triplet loss研究用語
3. マルチモーダル・クロスモーダルなディープラーニング
3.1 Vision and Language
3.1.1 画像キャプション生成
3.1.2 画像グラウンディング
- 画像グラウンディング (Image Grounding)
3.1.3 画像テキスト間埋め込み
- 画像テキスト間埋め込み (Image-Text Embedding) 視覚意味間埋め込み[Visual Semantic Embedding]
4 その他
4.1 ディープラーニング用語のうちmisc
- データ・ドリブン(data-driven)
- アブレーション(ablation)
- 設計選択(design choice)
- state-of-the-art (最先端の, SOTA)
- バニラ(vanilla)
- off-the-shelf (ソフトウェアが既製品の)
- non-deep learning (非Deep Leaning)な手法