ディジタル画像処理 [改訂第二版] 【おすすめ書籍の紹介】

記事を共有する:

1. 紹介する書籍の基本情報

※ 2020/05/23:2015年の[改訂新版]の紹介記事だったものを,2020年の[改訂2版]の記事に更新.

書名デジタル画像処理 [改訂第2版]
発売年2020年 (改訂1版である[改訂新版]は,2015年に発売)
著者ディジタル画像処理編集委員会 (コンピュータビジョン系の研究者が各章の執筆を担当)
難易度やさしい/初心者向け.
対象読者コンピュータビジョンの研究開発を開始して初年度~3年くらいまでの技術者・研究者.

2. 本の概要 および 管理人のおすすめ点

本書は2015年に発売の,コンピュータビジョン分野全体を入門解説するテキスト「ディジタル画像処理(2004年)」の11年ぶりの改訂版が2015年[改訂新版]として発売されていました.

そして,2020年に,さらにその改訂版の加筆修正版が,2020年に[改訂第二版]として発売されました.この記事では,その[改訂第二版](2020)の大まかな内容を紹介しながら,本書をオススメします.

CG ARTS協会主催の「画像処理エンジニア検定」の画像処理検定エキスパート試験と連動するようにも編集されている.標準的に必須な技術がカテゴリ分けされて章ごとに紹介されている教科書的な詳細を省いて概念の紹介に留めた教科書的なテキストです.よって,コンピュータビジョンの初学者も,非常に読みやすい書籍です

※ 管理人は「独学」よりは,大学でCVが専門の教員に授業などを通して,本書の内容を身につけさせてもらったほうが,効率的で確実に身に付くはずです.つまり,管理人は,この本の内容に限らず,独学よりは「師弟関係」「コーチング」の必要性を重視していることには注意です.

各章は,コンピュータビジョン界隈の著名研究陣が,各章の執筆を担当しています.私も,直接お世話になっている方々も含め,業界で著名な研究者がずらりと執筆陣として名を連ねています.

ディープラーニングの主流時代に突入する直前に,1つ前の版であった[改訂新版](2015)が発売されていましたが,改訂新版(2015)も,初版の構成を踏襲して加筆修正していたので,本書も「コンピュータビジョンの総ざらい」的な書籍の構成となっています.

本書は,研究者向けの難易度や抽象度が高い目で最先端の内容」を取り扱っている書籍ではありません.本書はエンジニアや学部生をターゲットと想定とした「エンジニア向けの教科書」的に編集された書籍です.したがって,多少学術論文的な記述や数式で説明はなされているものの、参考文献の引用はない上,原理や証明にはこだわらずに(=論文調ではく),定義や用語の説明中心で続く文章の形式となっています.

また,(前述の通り)業界第一人者とも言える方々がご自身の研究で得意なパートを執筆しているのもあって,平易でわかりやすい説明ばかりです.この意味で,分野外の方も含めて,初学時に非常に使いやすい書籍になっています.一方で,(簡潔性とわかりやすさ優先であるので)実際に核技術を使うときのTipsや,細かい具体的な応用例などはほぼ出てこない「辞書的・教科書的構成」であるゆえ,あくまで「入門テキスト」として用語や概念を,初めて学んでいくときに使える本であるとも言えます.また,新しくこの分野に移ってきた方や,大学や会社で始めて部下・学生に教えはじめるときにも向いています.

管理人が後期博士課程に進学して大学に戻る前に,修士までの内容を再勉強もしくは知らなかった基礎を学んで準備していた際にも,とてもお世話になった書籍でもあり,個人的にも思い入れのある書籍シリーズでもあります.

3. 内容と構成

改訂2版での加筆変更点

出版元のCG-ARTSの商品紹介ページにはPDFとして,[改訂2版](2020)と[改訂新版](2015)の差分が,目次上の各章に,追加,更新したのがどの節であるかをまとめたものが掲載されています.

大きな変化は「13章 深層学習による画像認識生成」が章ごと追加された点です.この13章後半には,物体検出セマンティックセグメンテーションGANによる画像生成や画像変換などの「概要」が追加されました.

その他にも「7-3 コンピュテーショナルフォトグラフィ」が新規追加され,[改訂新版(2015)]では概要程度までであったのが,7-3-2ライトフィールドカメラの原理に7-3-3 符号化撮像([2]符号化露光および[3]符号化開口)の説明.図解が追加されている.また,「オプティカルフロー/物体追跡」の14章追加・加筆が多めである.(ただし,Horn-Schunckらの手法(variational methodベースのオプティカルフロー)についての説明は追加されていません).

次の15章「カメラからの三次元復元」も加筆更新された節が多いです.加えて,16章「光学的解析とシーンの復元」でも,幾何と光特性を同時にjoint problemとして解く「16-8 形状・反射特性・照明環境すべての復元」が追加されています.

各章の構成

※ この節は,[改訂新版(2015)] の各章の構成について書いたものから,加筆していません.

冒頭の1章で分野全体の概論が述べられる.2章でまずはディジタル画像処理とカメラ原理の原理の話から始まり,古典的なフィルタリング処理の基本について6章までで解説されていく.7章は,「画像復元(ノイズやぼけの除去や超解像)」とライトフィールドセンシング」および「符号化撮像」について,8章は「アフィン変換/射影変換」と「モザイキング/パノラマ」の紹介である.9章-11章は,古典的な基礎技術として「2値化/セグメンテーション処理/テンプレートマッチング・特徴点マッチング」がそれぞれ紹介される。

4章では動画処理の一例として,古典的オプティカルフローと古典的物体追跡の概要が紹介される.15章および16章ではそれぞれ幾何的な3D画像処理(幾何復元, SFM, Multiviewステレオ)と,フォトメトリー的な3D画像処理(光学,反射,偏光,照度差ステレオなど)が述べられている.最後の17章は「画像符号化」の章である.

12章「パターン認識」ではディープラーニング登場以前に,画像認識分野で研究されてきたパターン認識・機械学習の概要が示されている.この12章には,古典的な画像認識や物体検出などの方法がまとめてあり,「昔はどのような機械学習手法を用いて解いていたか」についてイメージが掴みやすくなるはずである.

4. 本書の特徴

※ この節も,[改訂新版(2015)] の各章の構成について書いたものから,加筆していません.

本書は検定試験教科書を想定して書かれており,例えば以下のような特徴があります:

  • 文章や数式が理解しやすいよう,具体的かつ平易に書かれている
  • また、内容の理解を深めるためにグラフや処理ブロック図や、画像上での処理結果イメージがふんだんに使われている.
  • 一方で,非専門の人や非研究者でも読めるように、論文の引用はなされないまま天下り的に数式や概念の定義が続いていく.従って,歴史や発明者まで知る目的には本書は使用不可能であり,詳しく知りたい場合は研究者向けの書物/論文に当たる必要がある.
  • 検定試験との連携を意識して,試験に出るようなキーワードが太文字化されているので,ドリル的な学習効率が非常に高い.
  • 分野全体がバランスよく俯瞰しやすい形で収められている」ので,初学者が本書を読むことで、「分野全体にどういう技術や問題設定があるのか」が大まかにつかめる.逆に言うと,解説の深さは無くガイドブック的な書籍である.CVや画像認識の研究者向け書籍は,浅く勉強しておくべき内容が多すぎるので,「巨大なガイドブック教科書」になりがちであるのは仕方ない面があると思う.
  • マルチメディア寄りの話題や,グラフィックス寄りのはテーマは対象外に含なっており含まれていない.たとえば「画像/動画検索」「動画要約」や「AR」「VR」などの話題は、本書では解説されていない.
  • 概要で述べたように、参考文献の引用はない、エンジニア向けの書籍である.既に研究活動を始めたばかりの方にとっては,この書式は「歴史や経緯の話がなく,手法の羅列が多い」という意味で,少し情報を頭に入れていきづらいかもしれない.(※論文で書く技術を読んでその引用文献も辿っていけば,自然に時系列も頭に入るはずなので)

[改訂新版(2015)]の11年ぶり改訂で出た大きな特徴として,「15章にフォトメトリーの章が追加された点」があげられます.論文以外でのフォトメトリー系の日本語の書籍での導入的資料としては,コンピュータビジョン最先端ガイド4および5や,ここ数年の SSII2016 – 2018におけるフォトメトリ系チュートリアルのシリーズなどもありましたが,[改訂新版(2015)] 以降の本書も,その導入的資料として加わったと言えます.

また,[改訂1版(2015)] は,日本が本格的なディープラーニングブームに入る直前の移行中の時期に出版された本である.すなわち,深層学習を用いた画像認識の話はこの書籍には含まれていませんでした.2004年の初版と比べると12章にてパターン認識の内容がかなり加筆されているものの,深層学習の話は12章でCNNが少し触れられているのみである

※ この段落は以前の記事の流用である. [改訂2版(2020)]で「13章 深層学習による画像認識と生成」が追加されたことで,本書の深層学習の割合は少し増した

本書は良くも悪くも教科書の側面があり,取り上げられている内容は入門的で「浅く・広い」内容で,エンジニア向けや初学者むけです.[改訂新班(2015)]の冒頭でも,編集長の奥富先生は:

書籍全体が大きくなりすぎないように簡潔性を志向した構成意識しながら今回の改訂(による追加)を行なった

と,編集ポリシーを述べられています.

[改訂新班(2015)]でも,2004年版より詳しい解説が加えられたもしくは新規追加された章もあります.一方で,カテゴリーによっては,モデルの定式化の提示のみで終わっていたり,実際の理屈・原理およびモデルのフィッティング方法や最適化方法の詳細までは触れられていないものも多いです.

しかし,この話の裏を返すと,学部3~4年生や、他分野の方が初めて画像処理/コンピュータビジョンを勉強するには最適な「非常に読みやすい抽象度や簡潔性で執筆されている」書籍である.

5. まとめ

本書は、Deep Neural Networkによる画像認識やコンピュータビジョン・画像処理が主流になってきた2020年現在において,古典的な各手法の基礎を一気に総ざらいするのに向いている教科書・テキストです.

コンピュータビジョン界隈の研究開発に新しく携わり始めた方が,基礎が身につくまでの間,「ガイドブック」もしくは「百科事典」的に手元に置いておきたい一冊といえます.