1. コンピュータビジョン (Computer Vision)とは [概要]
コンピュータビジョン (Computer Vision)とは,「計算機(Computer)が実行する視覚(Vision)的システムの技術」を取り扱う,コンピュータサイエンス分野の1つである.コンピュータビジョンでは,写真や動画に写る実世界や,イラスト・絵・図表やコンピュータグラフィックスなど「人間が目で処理するもの」を入力として,(人間のように)画像処理や画像認識などのアルゴリズム・機械学習で認識・(自動的な)理解することをいう.
コンピュータビジョンと聞くと,「ソフトウェア上でのアルゴリズム処理や機械学習による推定・予測」というパターン認識をイメージする人もいるだろうが,計算機アルゴリズム側だけではなく,(入力画像/動画を形作る)レンズやカメラ機構などの「撮像系・センサー」側も含めた「計算機による(自動 or 半自動)視覚処理の全体」をコンピュータビジョンと捉えるのが通例である.単一のカメラを用いたものだけでなく,ステレオビジョンやマルチビュー(ステレオ)ビジョンも,コンピュータビジョンの範疇であり,その際にはカメラ幾何や,ライトフィールドに,対象物体・対象シーンの「動き(モーション)」「ぼけ(ブラー)」などをセンシングや補正復元していく話もコンピュータビジョンビジョンの範疇である.機械学習・ディープラーニングを用いた画像生成や,古典的な画像編集・映像編集(画像補間であったり,スマホやInstagramなどでも使う画像フィルタリングなど)も,コンピュータビジョンの範疇であある.
ディープラーニングで学習した,画像生成モデル(例:DCGANやVAE)・画像変換モデル(例:pix2pix)に,それを応用した画像編集モデル(inpaitingやその他のAI画像編集)は,コンピュータビジョンビジョンがよく模する人間(や動物)が持つ「パターン手認識的で,受動的・入力的な視覚・Perception」とは違い,Graphics分野よりの能動的・出力的な「操作/自動編集」である.ゆえに,画像生成や変換も(センシングや認識が主だった)コンピュータビジョンの範疇にあるかと言われると,本来は別物で,対照的な反対のもの同士である.しかし,視覚系対象だと,生成も変換もコンピュータビジョン分野に含めて語ることが多くなった(※).
※たしかにお互い表裏一体の関係ではあるが,管理人としては,「ビジョンとグラフィックスを表裏一体でまとめて表す,総合的な分野名」を付けて,そこで両者扱うほうが好ましいと感じる.
コンピュータビジョン向けシステムの入力は,動物の目と一緒の画像・映像や,そのうち明示的に3D幾何などをセンシングした3D点群などの,視覚データ(Visual Data)が用いられる.その入力を元に,(1) 編集・補間・修正した結果を出力したり,(2) 認識・生成・予測のための機械学習モデル(近年は特にDeep Neural Network)を学習する.
2000年を超えたころから,コンピュータビジョンでも,当時の最先端の機械学習・パターン認識の技術や,手作り画像特徴の発展で物体認識・物体検出が高精度化・多クラス対応・対象の変形への対応が可能になりはじめていった.更に2010年代後半からは,ディープラーニングとCNNの急成長とあいまって,画像認識タスク・動画認識タスクでの認識精度向上も著しい.一方,GAN(DCGAN)やVAEの登場で,これまでなかったタスクである画像生成・画像変換も登場した.
パターン認識が登場以前のコンピュータビジョンは,画像で撮影したシーン・物体やカメラ自身の 幾何(Geometry)と測光(Photometry)への興味が,2本柱であった.それもあり,(ディープラーニング時代になって以降も含めて),対象シーン・物体の「3D幾何形状・3D光学特性をセンシングして計る・再構成する」事も,よく行う.
また,機械翻訳分野での応用を皮切りに,「トークン系列モデル(seq2seq with アテンション)」や ,その発展型とも見なせる「Transformer」や,Transformerの事前学習応用である BERT,GPT-3 が登場しているが,その流れと共に「視覚データを,自然言語処理や音声処理・音響処理」とともに連携するマルチモーダル(クロスモーダル)な認識/生成技術の発展も続いている.更にその流れは2020年頃以降は,CLIPやDALL-Eなどの「Vision-Languageモデル」の急成長や,T5の登場に伴い加速しており,コンピュータビジョンも,その「モーダル横断的な枠組み」の1分野として技術進化が進んでいる.
※ [2025年5月記] ChatGPTや.CLIP, VITに,Stable Diffusion/ Midjourneyなどは,事前学習が大規模な著作権侵害・無断使用であるゆえ,それらのモデル自体やV-L基盤モデルやLLMを組み込んで商用化されているモデルも,倫理的に商売や研究に使用してはマズイので,管理人は使用を避けてきました.また,2023年3月頃から私の「Twitter/Xのアカウント(※削除済み)」が,それら無断学習の生成AI/基盤モデルに激怒されていてクリエイターの方々(特にイラスト・漫画・CG業界)の駆け込み寺になりました.それ以降も私は,CLIPの「LAIONデータセット」や,Midjoruneyなどで,勝手にスクレイピングされたデータを無断学習されていたことに強く抗議されてきたクリエーターの支持者です ( #NOMORE無断生成 のハッシュタグや活動も,彼らと共に支持してきました) .
この記事では,コンピュータビジョンの3つの時代の歴史的概要を,トピックの列挙によって簡潔に行う(2節) .また,アカデミック的な技術的に歴史を追うだけでなく,ビジネス・産業的な流れも3時代で,同時に追っていく構成にした.
また,本記事は,サイト全体を探る,最初の基点・拠点ページを目指したい.よって,ディープラーニングの用語記事の一覧や📷コンピュータビジョンの用語記事の一覧📹のように「おおまかな構成 」を辿ることに加えて,アカデミック・ビジネスの双方の視点からの「3時代における,CV・DLの歴史」を,今後繰り返し確認ができるような記事にしたい.
この記事は2022年に、当時までの状況を書いた記事であることに注意.例えば、2022後半たりからの「大規模AIモデル・生成AIのブーム,およびそれに伴う社会問題」の話などは本記事には含まれていない.
2. コンピュータビジョンにおける「予測モデル」の典型的構成
2節で3世代をたどる前に,その中で出てくる各問題への見通しがよくなるよう,「コンピュータビジョンで組む,典型的なシステム構成」(図1)を,先に簡単にだけおさらいしておきたい.
コンピュータビジョンの予測システム(図1)では,まず入力として,画像や,画像列(動画)・画像集合(複数視点)を取り入れるする.
このとき,ネットワークの構成方法が以下の2種類に大別できる:
- 画像の深層生成モデルや変換モデル(画像変換モデルや画像キャプションなど)
- 画像認識・予測モデル
- CNN Encoderや,Transformer-Encoderなどで構成する
図1では,これら2つを「いっしょくたの共通システム」として表現・図説することを試みた.
1の生成モデル(変換モデル)では,同じサイズの画像(or 画像群)をDecoderをもとに,中間表現から復元して出力する.画像対画像変換や,画像スタイル変換,に,密予測(Dense Predicition)問題における,画素ごとの予測値(ステレオマッチング,オプティカルフロー,意味的分割)などをDecoderで復元する.
一方,2の画像認識モデル予測モデルでは,クラス分類結果(物体認識)や,物体ROI + クラス(物体検出)に,6DoF Pose (物体姿勢推定),Keypoint(人物姿勢推定)などを,入力画像をEncodeした結果の特徴ベクトル群(特徴マップ)をもとに推定する.
また,最近のコンピュータビジョンでは,入力に補助入力やクエリーを用いるアプローチも多い.画像検索などでは,クエリーにも(第2の)入力画像を入れたり,もう少し中間表現化したものを補助入力としてニューラルネットの途中に加える.また,V-Lなど,文記述などの他モーダルのクエリーを入れることも多い.加えて,少数ラベル付き画像からの学習では,サポート画像(Few-shot学習)を元に,短時間で住むモデル適応(メタ学習やプロトタイプ学習)を行うことも多い.
3 コンピュータビジョンの応用先
この節では,主な「コンピュータビジョンの応用先」を,概要的に列挙しておきたい.
管理人は,大学に博士を取りにもどったが,基本的には企業との共同研究や,大手企業やベンチャーでの仕事にずっと携わっているので,この1.2節で各内容は,とても「産業応用・ビジネス目線」の度合いが強い(逆に,アカデミックな目線での,各技術の変遷は次の4節で整理する).
例えば「世の中,どういうところにどういったビジョン応用のユーザーが増えたか」「しかし,過去はそうでなくここまでしか達成できなかった」という話や,「これこれこういうきっかけがあって以降,ユーザーが新たに増えて需要が拡大している」という話をしていく.
3.1 マシン・ロボットビジョン
初期のロボット研究における古典的ビジョン
初期の視覚系の基礎的な産業として成り立つ前の時代(60年代や70年代)の研究は,それこそMITやStanfordなどの先進的な研究質における,機械のビジョン部分を担当する「マシンビジョン(Machine Vision)」であった.初期の当時は今のようなパターン認識が使えないので,複雑なものは検出・認識できず,ロボットが取り扱いやすい正方形や球などを対称に,エッジ検出やハフ変換などの古典的な技術でプロトタイプ的形状の物体のみを認識できていた.よって,より複雑な物体認識やシーン理解を薦めていくため,3次元シーンの幾何的・測光的な性質を復元する技術の初期研究が,行われた(平行ステレオマッチングやフォトメトリックステレオに,アクティブステレオなど).
その語,80年代〜90年代に入ると,「テンプレートマッチング」系の技術や「平行ステレオカメラ」の技術などをもとに,工場での概観検査などのロボットビジョン系の技術を皮切りに,少しずつ画像認識の産業応用が始まる.
深層学習ブームと平行した,移動式ロボットへの導入
3次AIブーム終了以降の,2021年以降では,工場で高度なロボットビジョン (Robot Vision)システムがロボットに搭載され活躍するのは当たり前となってきている.Amazonの巨大配送基地での,移動式ロボットによる棚卸し自動化や,自動車工場でのアームロボットによる半自動製造など,製造業における工場のロボットの発展速度が著しく,そこには深層学習で高度な画像認識が可能になってきているコンピュータビジョン業界の発展が大きく関わってもいる.
製造業では,そうしたロボットビジョン部分の点群処理の発展が実用段階に以降移行し,それまで静止したロボットや外観検査システムで主に用いられてきたロボットビジョン・マシンビジョンの技術が,移動ロボットへも移行している.例えばiRobot社のルンバ™や,そのフォロワーによる掃除ロボットなどの移動式小型ロボットが,家庭内に家電として入ってきている.
※ センサーとしてカメラ使われておらず,SLAMにビジョン技術がまだ貢献していない小型移動ロボットも多かったことには注意.
自動車業界でも,ADAS(自動ドライバーアシストシステム)の進展が続き,ステレオカメラやミリ波レーダーを活用した,自動ブレーキ機能が高級車から導入されていき,最近ではオートクルーズ機能が搭載される高級車も出てきている.また,コロナをきっかけに,外食産業レストランでも自動配膳ロボットの導入や,オフィス掃除・見回りロボットなども導入されている.更には,配送ビジネスの拡大により,アメリカでは自宅まで出前を配達してくれるロボットカーも登場しているなど,ロボットカーやドローンによる物の配送の話が進みつつあり,このロボットの自動移動にはロボットビジョン技術が欠かせない(特に点群処理).
3.2 スマホ画像・動画での応用
(2.1節でも述べるが),画像特徴量ベクトルの技術が,SVM・Boostingなど連携しはじめた2000年頃移行は,「スマートフォン普及」に伴い,スマートフォンで撮影したin the wild なデジタル画像・動画に対して,各種の画像認識や画像動画編集をする機会が増えていった.
画像編集アプリや動画編集アプリの大衆化
また,コンピューテーショナルフォトグラフィの技術が,スマートフォンの後処理として画像編集ソフトで使用されてくるようになった.パッチマッチ(Adobe)による画像の削除領域自動補間が画像編集アプリで手軽に使えるようになった.もとは映画会社向けの高級な拡張であった,SLAMによる3D対象追跡での3Dオブジェクト合成も,手軽に動画編集ソフトで行えるようになってきている.
最近のスマートフォンでは,HDR処理機能による,白飛び黒飛びのない撮影の自動合成できる.また,画角・焦点距離(+ F値, 画角)の異なる2~3眼の望遠/広角カメラペアが装備されたスマートフォンでは,対象までの距離に則したカメラの選択や,複数カメラからの画像を合成することで,後処理のバリエーション(ボケの活かしかたや,ポートレート撮影)も増えている.以前は高級なデジタル一眼を所有しているような写真が好きなひとだけが行っていたことが,インスタグラムの人気などもあって,「プロ的写真撮影」が大衆化している.
Appleの「写真アプリ」など,自動的に物体検出やシーン認識に,顔認証(クラスタリング)を行い,半自動アルバム整理する技術も身近になってきている.紅葉の写真が勝手にたまると,これ系のアルバムアプリは「紅葉の思いで」と紅葉画像のみを自動アルバム化してくれる.また,子育て中の家庭の多くは,クラウド型の写真アルバム共有アプリを使用するようにもなり,実家の祖父母に赤ちゃんの成長をアプリ経由で共有する時代にもなった.以前は,こうしたの人物認証技術は,監視カメラによる犯人追跡や同定むけに使われていたのが,一般家庭での娯楽むけに別応用されていったとも取れる
逆に言うと、「監視社会化・機械の奴隷化」が進展しているので気を付けるべきだとも言える.私も,こういうサイトを作ってはいるものの,過度に画像認識やAIに頼るのは,人間社会として間違っていると思っている.(AI・ロボット・画像認識系のシステムに限らず,)便利で効率的なモノでも,使用はホドホドに留めておき,依存しすぎず「人間的に暮らしていて,機械やネットからは,しっかり自立・自律している」ことが大事である.
4. コンピュータビジョン の3時代における主要トピック
このサイト(もとい管理人の目線)では,コンピュータビジョンの世代について,ディープラーニング(深層学習)の以前/囲碁を基準とした,以下の①〜③の3つの年代に分類して,歴史を外観していくこととしたい:
- 深層学習前のコンピュータビジョン
- ①[4.1節] 伝統的でオーソドックスな問題 (古くから2013年頃まで)
- 深層学習を用いたコンピュータビジョン:
- ②[4.2節] Transformer 以前 (2013年頃~2019年頃)
- ③[4.3節] Transformer 以後 (2019年頃以降〜)
この3時代で,時代ごとに主にアカデミックな「研究分野の進展」の目線で,それぞれの時代の概観を述べていきたい.同時に実用例やビジネス応用の目線の話も,ある程度述べていく.
以降の4.1~4.3節では,①〜③の時代で新しく出てきた話題を,順にリスト形式で手短にだけ紹介する.各節では,その時代のビジネス的なトピックを提示したのち,研究でよく取組まれた主要タスクや技術を列挙する.
※ 必ずしも網羅的ではないのをご容赦いただきたい.多くを列挙しようとすると,各リストの簡潔性が薄まってしまうので.
4.1 ① 昔のコンピュータビジョン (2013年ごろより以前)
深層学習・AIブームに突入する前の時代(2010年ごろ以前)に,コンピュータビジョン・マシンビジョン界隈でよく解かれていた問題には,例えば以下のようなものがある(※あくまで抜粋である):
- 古典的なCV技術全般(OpenCVで,機械学習無しで使えるような技術)
- 画像処理 (より良い画像フィルタ,ブラー除去,超解像など)
- マルチビュー幾何:
- ステレオマッチングによる深度推定.
- MVS(Multiview Stereo)による巨大対象建物の3D再構成.
- カメラキャリブレーション
- FFTによるCT画像のフーリエ再構成
- オプティカルフロー,Keypointマッチングによる画像間の密な対応付け.
- マシンビジョン・ロボットビジョン・外観検査など
- テンプレートマッチングによる良品識別や,ゴミ・傷検出など.
- Kinect登場で,安価なデプスセンサーと人物姿勢推定が登場.
- 物体認識において,機械学習の本格的活用が開始(2000年ごろ~)
- 物体画像のクラス識別:Bag-of-Visual-Features → Fisher Vectorなど.
- Fine-Grained物体認識への取り組みが開始.
- 単一クラス物体検出(顔検出や歩行者検出)やDPM(変形可能パーツモデル群)
- Webレベル画像検索の開始(Googleなどによる,先進的な実用化の試み)
- カーネルSVMや,Latent SVM の流行
- BoostingやRandom Forestなど,アンサンブル学習モデルの使用も標準化.
- 画像検索と認証技術むけの,距離軽量学習の進展.
- 映像認識(TRECVIDコンペティションの開始)の先駆的研究が開始.
4.2 ②深層学習を用いた コンピュータビジョン (2013頃~2019頃まで)
AlexNetでCNNがブレイクした2012~2013年以降,コンピュータビジョンや自然言語処理,音声・音響分野などではディープラーニングへの移行が始まった.少なくともアカデミック側では,2015年~2016年頃までには,ディープラーニングで問題に取組むのが主流となっていた.
この期間に,産業応用やビジネス目線では,例えば以下のようなトピックがあった:
- 自動運転の研究開発競争化で,関連3D技術がブームに.
- GoogleやFacebookに,ディープラーニング系専門の研究所が誕生.AIブームとあいまって報酬が大学より多いため,Ph.D取得者だけでなく,教員の各ラボへの移籍も始まる.
- DeepMindや Google Brainなど,以前はスタンフォードやCMU, MITなどが担当していたような高度基礎研究を得意とする,エリート少数精鋭部隊によるラボが誕生.
- 「ネットショッピング需要増による,Amazonなど巨大倉庫むけのロボット自動化.
- 顔キーポイント追跡による,スマホフロントカメラでの顔デコレーションのブーム
- AWSを皮切りに,クラウドサービスが定着化
- 各社クラウドにVision APIを提供
- 専門性がなくとも画像認識を使用しやすくなった(=コモディティ化).
- NVIDIA社が,GPUの深層学習活用に路線を強める.
- デジカメの進化(レンズ撮像系,画像処理・画像認識の両面)
そして,その時代のなかで,アカデミックでは,以下のような話題が新たに登場・進展・流行した:
- 主要タスクのDeepCNN化の成功 (2013~2017年ごろ):
- ImageNetで,物体認識むけの大規模CNNモデル化が開始
- Faster R-CNN, YOLO,SSD登場以降,物体検出が多クラス化・高精度化・実時間化.
- FCN, U-Net登場以降,セマンティックセグメンテーションが現実的な精度に.
- COCOとインスタンスセグメンテーションの登場.
- 動画認識向け C3D, I3Dや,Kinetics, ActivityNetデータセットの登場.
- Google,Facebookなどで新設された大企業ラボも巻き込んだ,CNNバックボーンの提案の競争.
- ResNet 時代到来:各画像認識問題が,まずは教師あり学習できちんと学習できた.
- ロボットビジョン目的の,物体の6DoF Pose推定.
- そこでCNN教師あり学習の「データセット用意の不便さ」を解決したい:
- 少数ラベルからの学習の追求が開始(弱教師あり,Few-shot学習).
- アノテーションやデータ拡張の研究も盛んに.
- ドメイン適応:
- 少数未知ドメインデータ(昼夜変換や季節変化)への適応.
- 実画像認識モデルから,イラスト画像への適応
- 画像向けの深層生成モデルの登場(GANとVAE).
- Triplet lossによるランキング学習の登場により,Deep Embedding学習が容易に.
- 3D点群処理ネットワーク(PointNetなど)の登場.
- seq2seq with attentionの登場:系列変換問題が初めて手身近に解けるように.
- これで解きやすくなったVision-Language研究がブームに.
4.3 ③Transformer登場以後のコンピュータビジョン (2019頃以降〜)
産業応用やビジネス目線では,コンピュータビジョン(画像・動画)やAI業界界隈で,たとえば以下のようなトピックがあった:
- 大規模クラウドの流行により,各社(Google のYoutube, Amazon, Apple TVなど)が動画サービスを提供し「動画コンテンツ時代」が到来.
- コンテンツメディアや放送の「サブスクリプション型」への移行 (NetflixやDAZN)
- 若年層から順に,テキストメッセージSNSから,動画SNSへとユーザーが移動:
- SnapChat/Instagram/Tiktokによる,ショート動画の時代へも突入
- Youtubeによる,動画メディア・放送の大衆化.
- 動画編集アプリと,そのための技術の重要が増加中
- スマホ自撮りや、VLOG用途の増加.
- ドローン需要増に伴う,ドローン動画撮影や点群取得の需要増加
(この記事を執筆した2022年ごろまでに)以下のような技術の進展が,アカデミック側で,新たに起こっている:
- 系列変換モデルに,新たな定番としてTransformerが登場.(BERT, GPTの登場にもすぐ繋がる)
- 事前学習として,教師なしの自己教師有り学習が威力を発揮し人気に.
- Computer Vision や Vision-Languageも,(RNNベースから)Transformerへ移行 (物体認識のViTに物体検出のDETRなど).
- 単体画像だけからの3D物体メッシュ再構成が盛んに.
- Neural Field(特にNeRF)の研究における流行が開始.
- (T5の登場の影響などで) 複数タスクの学習を統合する「Universal モデル」の流行.
関連書籍
- Pythonで学ぶ画像認識 (機械学習実践シリーズ), 田村 雅人, 中村 克行, インプレス, 2023.
- 深層学習 改訂第2版 (機械学習プロフェッショナルシリーズ) 岡谷貴之,講談社,2022.
- Probabilistic Machine Learning: An Introduction, Kevin Patrick Murphy , MIT Press, 2022.
- 画像認識(機械学習プロフェッショナルシリーズ),原田達也,講談社,2017.