✳️ディープラーニングの用語wiki記事 [一覧]

このページの概要

📚用語Wikiの記事のうち,ディープラーニング (Deep learning) 記事カテゴリーに属する一覧を,階層的に記事リンクつきで示している一覧ページです.deep learningを用いたコンピュータビジョンの用語記事も,この「✳️ディープラーニング」カテゴリに含めているゆえ,サイトのホームの次くらいに,このページは起点ページです(継続的な利用者は,このページへ頻繁にアクセスしてください).

このページ/カテゴリーの各用語は,サイトの主テーマである「コンピュータビジョン」「画像認識」むけの「ディープラーニング用語」の解説記事が中心ですが,他分野の「自然言語処理(NLP)音声認識音響処理系」などの記事も含めています(※).

※ディープラーニングの登場後,特に系列変換モデルとアテンションTransformerの流行以降に,コンピュータビジョンと他のマルチメディア分野(音やテキスト)と,解法・アプローチが似てきたり,モデルも共通化・クロスモーダル化しています.

タスクとモデルに分類

このページでは,各用語を(CVやNLP等の)タスク(1節)(deep learningの)モデル(2節)に分類し,さらにその中でもグループ化して,全用語記事(へのリンク)を一覧化しています.「0.トップ2階層の記事のみ厳選」では,まず先に「重要なタスク・モデルのみ」を厳選して一覧化しています.

この「厳選モデルタスク一覧(0節)」を日常的に使用すると,(まだ中級者には達していない方ほど) 俯瞰力がつく上に,「上位の階層記事へのショートカット集」としても機能しやいすいはずです.

※ 0節に列挙している「最重要なモデル・タスク」への理解度・習熟度の高さが,仕事で独自に応用する際の質・レベルへと直結するとおもいます.それ以上の細かい話は「瑣末な枝葉概念」であったり,最重要のモデル・タスクを「後で応用・発展させたもの」に過ぎません.

non-deep learningな「CV・NLP」や「機械学習」は別カテゴリで.

non-deep learningなCVの手法・問題設定が中心の「伝統的なコンピュータビジョン」についてはコンピュータビジョン(non-deep)の用語記事の一覧を参照してください:

同様に,non-deep learning時代の以前の自然言語処理については,以下の自然言語処理の用語記事の一覧を参照してください (ただし,こちらはdeep learning後も含みます):

0. トップ2階層の記事のみ厳選

※ 「リンクはまだ無いが,タイトル案だけ列挙してある用語」は,今後書きたい記事の候補です

1. タスク

1.1 物体認識

1.4 人物姿勢推定

1.5 動画からの行動理解

  • 3D動画表現CNN
    • C3D
    • I3D
    • ResNet3D
  • 行動認識 (Action Recognition)
  • 行動検出 (Action Detection)
  • 行動分割 (Action Segmentation)

1.6 画像対画像変換モデル

  • 画像変換(Image-to-Image Translation)
    • pix2pix
    • CycleGAN
  • 画像スタイル変換
  • 画像補間ネットワーク
  • 超解像ネットワーク

1.7 3D点群処理(ディープラーニング )

  • PointNet
  • VoteNet

2. モデル

2.3 学習方法

2.6 距離学習

  • ランキング学習ネットワーク:
    • Siamese Network
    • Triplet loss研究用語

3. マルチモーダル・クロスモーダルなディープラーニング

3.1 Vision and Language

3.1.1 画像キャプション生成

3.1.2 画像グラウンディング

  • 画像グラウンディング (Image Grounding)

3.1.3 画像テキスト間埋め込み

  • 画像テキスト間埋め込み (Image-Text Embedding) 視覚意味間埋め込み[Visual Semantic Embedding]