【書籍紹介】ディジタル画像処理 [改訂第二版] 【コンピュータビジョンの基礎全般を網羅したテキスト】

0

基本情報

※ 2020/05/23:2015年の[改訂新版]の紹介記事だったものを,2020年の[改訂2版]の記事に更新.

書名デジタル画像処理 [改訂第2版]
発売年2020年 (改訂1版である[改訂新版]は 2015年)
著者ディジタル画像処理編集委員会 (コンピュータビジョン系の研究者が各章の執筆を担当)
難易度やさしい/初心者向け.
対象読者コンピュータビジョンの研究開発を開始して初年度~3年くらいまでの技術者・研究者.

本の概要

本書は2015年に発売の,コンピュータビジョン分野全体を入門解説するテキスト「ディジタル画像処理(2004年)」の11年ぶりの改訂版が2015年[改訂新版]として発売され,さらにその改訂版の加筆修正版が,2020年に[改訂第二版]として発売された.この記事はその[改訂第二版](2020)を紹介する.

CG ARTS協会主催の「画像処理エンジニア検定」の画像処理検定エキスパート試験と連動するようにも編集されている.標準的に必須な技術がカテゴリ分けされて章ごとに紹介されいる教科書的な詳細を省いて概念の紹介に留めた教科書的なテキストであり,コンピュータビジョンの初学者にとっても読みやすい書籍である.(もちろん,読みやすい書籍ではあるものの,独学するよりは大学で教員に授業などを通してこの本の内容を教えてもらったほうが効率的で確実に身に付くはずではある)

各章は,コンピュータビジョン界隈の著名研究陣が執筆を担当している.私も直接お世話になっている方々や,業界で著名な研究者がずらりと執筆陣として名を連ねている.Deep Leaning主流時代に突入する直前に[改訂新版](2015)が発売されたが,改訂版も初版の構成を踏襲して加筆修正しているので,「コンピュータビジョンの総ざらい」的な書籍の構成となっている.

研究者向けの書籍ではなく,エンジニアや学部生をターゲットと想定とした「エンジニア向けの教科書」的に編集された書籍である.よって,数式も含んで多少学術論文的な記述で説明はされるものの、参考文献の引用はない上,原理や証明にはこだわらずに(=論文調ではく),定義や用語の説明中心で続く文章の形式である.更に、(前述の通り)業界第一人者とも言える方々がご自身の研究で得意なパートを執筆しているのもあり,平易で理解しやすい説明ばかりなので,分野外の方も含めて初学時に非常に使いやすい.一方この逆で,(簡潔性優先であるので)実際使うときのTipsや具体的な応用例がほぼ出てこない構成なので,あくまで入門テキストとして用語や概念を学んでいく本であるとも言える.

管理人が博士課程に戻る前に,修士までの内容の再勉強もしくは知らなかった磯勉強を行う際にとてもお世話になった,個人的にも思い入れのある書籍でもある.

内容と構成

改訂2版での加筆変更点

出版元のCG-ARTSの商品紹介ページには,[改訂2版](2020)と[改訂新版](2015)の差分が,目次上の各章に,「追加」「更新」したのがどの節であるかが,PDFとして掲載されている.

大きな変化としては「13章 深層学習による画像認識と生成」が章ごと追加された点である.この13章後半には,物体検出や画像セグメンテーションにGAN/Image Translationなどの概要が追加されている(このあたりは,日本語の書籍だと「画像認識(機械学習プロフェッショナルシリーズ)」にも解説がある).

その他にも「7-3 コンピュテーショナルフォトグラフィ」が新規追加され,[改訂新版(2015)]では概要程度までであったのが,7-3-2ライトフィールドカメラの原理に7-3-3 符号化撮像([2]符号化露光および[3]符号化開口)の説明.図解が追加されている.また,「オプティカルフロー/物体追跡」の14章追加・加筆が多めである.ただし,Horn-Schunckらの手法(variational methodベースのオプティカルフロー)についての説明は追加されていない.次の15章「カメラからの三次元復元」も加筆更新された節が多い.また,16章「光学的解析とシーンの復元」でも,幾何と光特性を同時にjoint problemとして解く「16-8 形状・反射特性・照明環境すべての復元」が追加されている.

各章の構成

この節は,[改訂新版(2015)]について書いていたものであり,各章の全体構成について紹介していく.

冒頭の1章で分野全体の概論が述べられる.2章でまずはディジタル画像処理とカメラ原理の原理の話から始まり,古典的なフィルタリング処理の基本について6章までで解説されていく.7章は,「画像復元(ノイズやぼけの除去や超解像)」とライトフィールドセンシング」および「符号化撮像」について,8章は「アフィン変換/射影変換」と「モザイキング/パノラマ」の紹介である.9章-11章は,古典的な基礎技術として「2値化/セグメンテーション処理/テンプレートマッチング・特徴点マッチング」がそれぞれ紹介される。

12章「パターン認識」ではディープラーニング登場以前に,画像認識分野で研究されてきたパターン認識・機械学習の概要が示されている.この12章には,古典的な画像認識や物体検出などの方法がまとめてあり,「昔はどのような機械学習手法を用いて解いていたか」についてイメージが掴みやすくなるはずである.

4章では動画処理の一例として,古典的オプティカルフローと古典的物体追跡の概要が紹介される.15章および16章ではそれぞれ幾何的な3D画像処理(幾何復元,SFM, Multiviewステレオ)と,フォトメトリー的な3D画像処理(光学,反射,偏光,照度差ステレオなど)が述べられている.最後の17章は「画像符号化」の章である.

本書の特徴

本書は検定試験教科書を想定して書かれており,例えば以下のような特徴があるといえる:

  • 文章や数式が理解しやすいよう,具体的かつ平易に書かれている
  • また、内容の理解を深めるためにグラフや処理ブロック図や、画像上での処理結果イメージがふんだんに使われている.
  • 一方で,非専門の人や非研究者でも読めるように、論文の引用はなされないまま天下り的に数式や概念の定義が続いていく.従って,歴史や発明者まで知る目的には本書は使用不可能であり,詳しく知りたい場合は研究者向けの書物/論文に当たる必要がある.
  • 検定試験との連携を意識して,試験に出るようなキーワードが太文字化されているので,ドリル的な学習効率が非常に高い.
  • 分野全体がバランスよく俯瞰しやすい形で収められている」ので,初学者が本書を読むことで、「分野全体にどういう技術や問題設定があるのか」が大まかにつかめる.逆に言うと,解説の深さは無くガイドブック的な書籍である.CVや画像認識の研究者向け書籍は,浅く勉強しておくべき内容が多すぎるので,「巨大なガイドブック教科書」になりがちであるのは仕方ない面があると思う.
  • マルチメディア寄りの話題や,グラフィックス寄りのはテーマは対象外に含なっており含まれていない.たとえば「画像/動画検索」「動画要約」や「AR」「VR」などの話題は、本書では解説されていない.
  • 概要で述べたように、参考文献の引用はない、エンジニア向けの書籍である.既に研究活動を始めたばかりの方にとっては,この書式は「歴史や経緯の話がなく,手法の羅列が多い」という意味で,少し情報を頭に入れていきづらいかもしれない.(※論文で書く技術を読んでその引用文献も辿っていけば,自然に時系列も頭に入るはずなので)

[改訂新版(2015)]での11年ぶり改訂で出た大きな特徴の1つとして,「15章にフォトメトリーの章が追加された点」があげられる.論文以外でのフォトメトリー系の日本語の書籍での導入的資料としては,コンピュータビジョン最先端ガイド4および5や,ここ数年のSSII2016 – 2018におけるフォトメトリ系チュートリアルのシリーズなどもあったが,[改訂新版(2015)]以降の本書も,それに加わったと言える.

また,[改訂1版(2015)]は,日本が本格的なディープラーニングブームに入る直前の移行中の時期に出版された本である.すなわち,深層学習を用いた画像認識の話はこの書籍には含まれていない.2004年の初版と比べると12章にてパターン認識の内容がかなり加筆されているものの,深層学習の話は12章でCNNが少し触れられているのみである (※ この段落は以前の記事の流用である. [改訂2版(2020)]で「13章 深層学習による画像認識と生成」が追加されたことで,本書の深層学習の割合は少し増した)

本書は良くも悪くも教科書の側面があり,取り上げられている内容は入門的で「浅く・広い」.[改訂新班(2015)]の冒頭で,編集長の奥富先生は

書籍全体が大きくなりすぎないように簡潔性を志向した構成意識しながら今回の改訂(による追加)を行なった

と,編集ポリシーを述べられている.

[改訂新班(2015)]でも,2004年版より詳しい解説が加えられたもしくは新規追加された章もある一方で,カテゴリーによっては,モデルの定式化の提示のみで終わっていたり,実際の理屈・原理およびモデルのフィッティング方法や最適化方法の詳細までは触れられていないものも多い.

しかし,この話の裏を返すと,学部3~4年生や、他分野の方が初めて画像処理/コンピュータビジョンを勉強するには最適な「非常に読みやすい抽象度や簡潔性で執筆されている」書籍である.

まとめ

本書は、Deep Neural Networkによる画像認識やコンピュータビジョン・画像処理が主流になってきた2020年現在において,古典的な各手法の基礎を一気に総ざらいするのに向いている教科書・テキストである.

コンピュータビジョン界隈の研究開発に新しく携わり始めた方が,基礎が身につくまでの間、ガイドブックもしくは百科事典的に手元に置いておきたい一冊とも言える.また,元は他分野を専門分野としていたが,就職や転職をきっかけにコンピュータビジョンや画像認識の研究開発に関わることになった場合にも,本書は非常に役に立つはずである.

一方で,この本の多くのコンピュータビジョンの古典的な技術も,現在の(研究論文では)ディープニューラルネットを用いた「学習ベース」の手法でデータドリブンに解くことが主流になってきている.たとえば,マルチビューステレオもオプティカルフローも物体追跡も画像復元も,現在はニューラルネットに学習させて解く研究が主流である点には注意である.

0