【書籍紹介】画像認識(機械学習プロフェッショナルシリーズ)

0

書籍の基本情報

書名画像認識(機械学習プロフェッショナルシリーズ)
発売年2017年5月
著者原田達也
難易度中程度(深層学習の時代以降しか知らない人には,旧技術の章はやや難しめに感じる可能性あり)
対象中級者向け(機械学習系専門の修士課程以上)

本の概要

東京大学 原田達也先生(研究室のリンク)の執筆による,2017年5月発売の機械学習プロフェッショナルシリーズの1冊である.画像認識に関連する2017年時点での普遍的内容を体系的にまとめた書籍であり,「1枚画像に対する画像問題」に内容をフォーカスしている(動画認識の話はあまり出てこない,という意味).レベル的には研究を開始した学部4年生・修士学生向けの「入門書」である.この本に掲載されているような画像認識界隈の重要論文を初めて読んで理解していくときの教科書・ガイドマップとして有用であり,網羅度と俯瞰性の高いおすすめの書籍である.

書籍全体の構成としては,終盤6-8章(識別CNN,検出CNN,画像検索)が,本書で説明したいメインの章であり,それらの準備として,2章から5章で「古典的に1世代前まではどう解かれていたか」が先に説明されるという感じの構成とである(と管理人は考えている).

(2020 5月追記)

本書の発売当初は,日本のコミュニティの中ではまだ日本語でまとめられていなかった内容も多く,やや難しい内容の書籍であった.しかし,今となっては基礎ともいえるような話が中心の書籍であるので,2020年現在読む場合は予備知識がある程度ある人には読みやすい本になってきていると言える.エンジニア向けの画像認識Deep Learningについてのプログラミング本のいずれかとセットで読むと,実装と応用の具体的イメージも得られるので,本書の理解も更に深まるはずである.(たとえば最近発売され評価も高いこのPytorch本や,CNNを深く理解するためのこちらのTensorflow/keras本など)

ただし読者のあなたが大学の画像認識研究室に所属しておらず,専門知識や事前知識がないのに独学で読もうとすると,数式等が難しくて理解がしづらいかもしれない(特に4章は著者得意範囲でもあるので,細かいところまで説明がある反面,難易度もやや高い).

内容と構成

冒頭1章は、画像認識全体の概要紹介である。前半(2~5章)では、画像認識のクラス識別の典型的な処理パイプライン(局所画像特徴/特徴選択/分類器)を、各章に分けて、深層学習以前の手法で個別に問題を分割して紹介している.6章でCNN時代に突入し,CNNによる大規模クラス分類ネットワークが紹介される.次の7章/8章は,それぞれ「クラス識別問題の発展でもある物体検出問題(7章)」と,画像インスタンス認識および画像検索問題(8章)」である.最後の9章では,発売当時の発展的であった話題の3つ(画像セグメンテーション/画像キャプショニング / GAN)について,概要紹介のみ行われる.

まえがきの最初の段落最後にて,著者は,本書の目的と対象読者を「膨大な画像認識の包括的な入門書」と定義し,以下のように銘打っている:

このように画像認識の内容は広大かつ膨大でために,明確な指針もなく全体を俯瞰し,知識を習得することは困難であるといえます.そこで、画像認識に関する普遍的な知識をできる限り体系的にまとめ,画像認識の包括的な入門書として本書を執筆しました.

私の出身・所属研究室でも,この書籍を新人教育で活用しているが,「画像認識の包括的な入門書」であるので,学生が3~4年生で研究室に配属されて,最初に読むのに最適な本である.

本書の特徴

王道の画像認識ど真ん中を研究対象としてトップ国際会議に多くの成果をコンスタントに発表されている原田先生が,ご自身が学生の方々と研究されてきた内容に関連する画像認識の内容をまとめた書籍である.

深層学習以前の技術をとりあつかう各章では,深めの掘り下げた説明を行う章も多い.よって,昔の技術の予備知識が無い人が初見で読むと,敷居が高い章もある.とりわけ,4章の後半などには初心者には難しいと思う(興味がある人は各論文も読んだ方がよい).また,5章も一世代前の識別器の説明(boostingとランダムフォレスト)が展開されるので,深層学習時代から入った若い世代の方には,それらの予備知識がないので読みづらいかもしれない.

一方で,深層学習以後の技術の各章については,極端に混みいった内容まで掘り下げては書かれておらず,入門書であるので入門的内容までにとどめて俯瞰しやすい章構成が取られており,機械学習とDeep Learningの基礎知が身についている状態であればとても読みやすい.物体検出器(7章)でも,Deep Learning以前の技術であるDeformable Part Modelsの解説まできちんと書かれているが,このように前半の章だけでなく,深層学習パートの後半の章でも旧技術がきちんと触れられているの点も,本書を推薦する大きなポイントである

まとめ

本書は、CNNによる大規模クラス識別モデルおよび物体検出モデルを中心に画像一枚に対する認識・検出・検索手法をまとめた画像認識の入門テキストである.深層学習直前によく研究されていた画像認識の各問題設定と前世代の手法についてもきちんと解説されている.画像認識に取り組む人には,入門テキストととしてはもちろん,研究のガイドブックとしても必携の一冊である.

0