このページの概要
ディープラーニング (Deep learning) に属する📚用語Wikiの記事一覧を,階層的に記事リンクつきで示すページです.サイトの主テーマ「コンピュータビジョン」や「画像認識」むけの用語Wiki記事が中心です.
自然言語処理や音声認識・音響処理系などの用語記事も多めになっています.ディープラーニング登場後は,とりわけ系列変換モデルとアテンションとTransformerの流行以降に,コンピュータビジョンと解法が似てきていて,マルチモーダルやマルチタスク学習で,共通化,統合化(Unify)もされつつあります,
このページは用語集の「上位階層の各記事へのショートカット」としても,日常的に使用していただけると思います.
ディープラーニング流行以前からある,伝統的コンピュータビジョンについては,コンピュータビジョンの用語記事の一覧を参照してください.また,自然言語処理の用語については,自然言語処理の用語記事の一覧を参照してください.
先に0.1節と0.2節で「トップ2階層のみを列挙したリスト」を,全体俯瞰しやすいようにリスト化してます.その後,1節(モデル)と2節(タスク)で,全用語をリスト化します.
※ リンクはまだ無いが,タイトル案だけ列挙してあるのは,今後書きたい記事の候補
0. トップ階層のみ厳選
タスク (厳選)
- インスタンスセグメンテーション
- DeepMaskとSharpMask
- Mask R-CNN
- DeepMaskとSharpMask
- 物体認識
- 細粒度物体認識
1. モデル(=ネットワーク)
1.1 CNN
- 畳み込みニューラルネットワーク (CNN)
- 正則化(Normalization)
- バッチ正規化とその発展型
- レイヤー正規化 (Layer Normalization)
- グループ正規化
- インスタンス正規化
- レイヤー正規化 (Layer Normalization)
- ドロップアウト(Dropout)
- 画像のデータ拡張(Data Augmentation)
- AlexNetでのデータ拡張
- CutMix
- ラベル平滑化(Label Smoothing)による正則化
- アーリー・ストッピング
- バッチ正規化とその発展型
- 局所正規化
- マルチスケール化のためのCNN拡張
- CNNバックボーン(backbone)の代表的アーキテクチャの歴史 [まとめ年表]
1.2 表現と層
- 表現(representation)
- 層(layers)
- 全結合層(fully-connected layer)
- 畳み込み(convolution layer)層とその発展型
- バッチ正規化(Batch Normalization)とその発展型
- プーリング層(Pooling Layer)とその発展型
- グローバル平均プーリング(Global Average Pooling)
- 平均プーリング(Average Pooling)
- インスタンス領域内プーリング:
- ROI pooling(関心領域プーリング)
- ROI align(関心領域アライン)
- 最大値プーリング(Max Pooling)
- 空間ピラミッドプーリング層 (SPP)とその応用例や発展型
- 活性化関数(activation function)[ディープラーニング向け]
- 中間層むけ:
- 出力層むけ:
1.3 学習方法
- 重み初期化(weight initializaiton): Xavier初期化と He初期化
- SGD(確率的勾配降下法)とその発展型
- Adam, AdaGrad, RMSProp
- 学習方法(learning-method):
- スクラッチからの学習(learning from scratch)
- 少量のラベル付きデータからの学習
- データ拡張(Data Augmentation, データ増大)
- 転移学習 (Transfer Learning) [深層学習・CNN向け]:
- 事前学習 (pre-training)
- 教師あり事前学習(Supervised pre-training)
- 自己教師有り学習(Self-supervised learning)
- ファインチューニング (fine-tuning, 精密調整)
- ドメイン適応(Domain Adaptation)
- 事前学習 (pre-training)
- 半教師あり学習(Semi-supervised Learning)
- 自己教師あり学習
- end-to-end学習(端対端学習)
1.6 距離学習
- ランキング学習ネットワーク:
- Siamese Network
- Triplet loss
2. ディープラーニングのタスク
2.1 物体認識
- 物体認識(Object Recognition)
- 細粒度物体認識(Fine-grained Object Recognition)
2.2 物体検出
- 物体検出(Object Detection)
- 物体検出の基本テクニック:
- 物体検出で用いるモジュール層
- 物体検出の評価指標
- ディープ以前の手法:
- マルチスケール物体検出(のためのCNN拡張部品)
- アンカーベース手法:
2.3 意味的分割と実体分割
- インスタンスセグメンテーション(Instance Segmentation, 実体分割)
- DeepMaskとSharpMask
- R-FCN
- Mask R-CNN
2.4 人物姿勢推定
- 人物姿勢推定(Monocular Human Pose Estimation)(2Dスケルトン姿勢の推定)
- 古典的な人物姿勢推定[ディープラーニング以前の手法]
- CNNベースの手法
- Stacked Hourglass Network
- OpenPose – Part Affinity Fieldsを用いた複数人物姿勢推定CNN
- ヒートマップ画像 (Heat Map )
- 画像からの3D人物姿勢推定 (3D Human Pose Estimation)
- 画像からの3D人物メッシュ再構成 (Human Mesh Recovery).
2.5 動画からの行動理解
- 3D動画表現CNN
- C3D
- I3D
- ResNet3D
- 行動認識(Action Recognition)
- 行動検出(Action Detection)
- 行動分割(Action Segmentation)
2.6 画像対画像変換モデル
- 画像対画像変換(Image-to-Image Translation)
- pix2pix
- pix2pixHD
- 画像スタイル変換
- 画像補間ネットワーク
- 超解像ネットワーク
2.7 3D点群処理(ディープラーニング )
- PointNet
- VoteNet
3. マルチモーダル・クロスモーダルなディープラーニング
3.1 Vision and Language
3.1.1 画像キャプション生成
3.1.2 画像グラウンディング
- 画像グラウンディング (Image Grounding)
3.1.3 画像テキスト間埋め込み
- 画像テキスト間埋め込み (Image-Text Embedding) 視覚意味間埋め込み[Visual Semantic Embedding]