著者の経歴や専門

このページでは,管理人について「研究者としての経歴(大学側・ビジネス側の両面で)」と「業績もあるので,専門性の高い分野」,そしてそれらの専門分野への「興味の動機」などについてまとめる.

このページを読んでいただくことで,管理人の私のどのような経験や視点をもとに,このサイトの記事を執筆しているかについて,ある程度は理解していただけると思う. 

1. おおまかな経歴や得意分野(専門性の高い分野)

このサイト「CVMLエキスパートガイド」の著者・管理人は,わたくし Hayashi Masaki (林 昌希)である(研究者ページ ).画像認識・コンピュータビジョン研究者・企業向けへの,研究アドバイザーや,AIチーム立ち上げのコーチングなどを行っている.企業面は

もちろん本業の研究も引き続き行っているのであるが,今後はCVMLエキスパートガイドや講座・書籍・動画作成などの学習素材作成や,企業のリサーチチームへの育成などの『学習支援業』もなりわいにしていきたいと考えており,その一手段として,このサイトも執筆をしている.

このあと述べるように,私は「多様で変わった経歴」の持ち主である.企業と大学をいったりきたりしており,両方で同時に研究している時期も多くが半々な感じでキャリア形成してきた.逆に言うと,ビジネスとアカデミックの両方(更にはそれらの中間や橋渡し)を,どの役割でも高レベルでこなせる,他にはない人材であると自認している.

1.1 得意研究分野

博士課程進学以降は,コンピュータビジョンの中でも,人物認識(人物姿勢推定や人物追跡)や行動認識を,主に研究成果として発表してきた.近年の,アカデミックな論文発表成果は,画像のインペインティングや,動画行動認識,Vision and Language/Audio (クロスモーダル認識)が主な研究成果である.

具体的には,論文で成果を発表した,以下の研究課題は,専門性が高い:

  • 人物認識:
    • 人物姿勢推定:画像・映像からの2Dボーンの推定.
    • 動画からの複数人物追跡と,その人物領域対応づけに用いるRe-ID用のEmbedding学習.
    • 動画からの行動認識.
  • 画像対画像変換:
    • 画像のインペインティング・アウトペインティング(for 360度カメラ映像).
  • Vision and Language (クロスモーダルな認識):
    • 動画での Visual-Sentence Embedding.(Video Sentence 検索)
    • 動画での Video Action Grounding (文章クエリからのモーメント検索).
    • 動画での Audio-visual イベント検出.

これらをひとまとめで言うと「動画認識問題の全般(特に人物が対象)に強い」というのが,私の特色である.このサイトでは大学院生向けの標準的なテキスト向けの内容から記事を固めていっているので,上記の「私が詳しい話」の最先端の内容まではすぐには披露できない.もし,ご興味ある方や,研究興味が近いという方は,共同研究者や,研究実用のアドバイザー・育成コーチとして,お仕事のオファーを頂けるとありがたい(※ 特に,動画認識の「言語や音との連携」に興味が高いです)

また,博士論文以降,これらのVision and Language系や物体認識・人物認識の研究の基本道具(前処理)として使用してい「物体検出」「インスタンスセグメンテーション」や「人物姿勢推定」などの,コアな教師あり認識技術に詳しい(このサイトには教科書やチュートリアルに載せるような,基礎的・標準的な内容までしか載せない).一方,上記の各研究でよく使用してきた「Triplet-loss系を用いたEmbedding学習(=検索技術)」に対する専門性が高いのも,私の特性である.Re-ID・人物追跡の画像モーダルでもSiameseネットワーク構成をよく用いるし,Vision and Languageでも,visual-text embedding や visual-sentence groundingで,2モーダル間でのSiameseネットワーク・contrastive loss を頻繁に使ってきたからである.

1.2 アカデミック研究・ビジネス向け研究の「2刀流」

著者は,修士課程修了後の新卒時,まずはエンジニアとして4年間システム開発者として働いていた.計測器のAPIを用いてC++/C#/Javaでメーカー向けに計測システムを開発する業務を行っていた(※ 少人数受託開発なので,自分でコードも全て書く).その最初の会社を退職したのち,母校に戻り,フルタイムの学生として,博士課程に進学した(ただしある程度,働きながら生活費は稼ぎながらの学生生活).

博士課程の終盤以降は,技術コンサルの仕事なども私個人むけに頂くようになり,その後は「企業向けの研究開発者・技術相談役」と「大学研究員(第2主著者として,学生の研究テーマの主担当者)」の,2足のわらじとなった.また,このサイトのDERiVEコンピュータビジョンビジョンブログで,よく情報発信していたこともあり,博士課程の後半の時期に,Point Cloud Library(PCL)関連で,SSIIチュートリアルに登壇したことを皮切りに,企業研究開発者向けセミナーをさせていただき,当時の点群処理・ロボットビジョンにも触れることができた.

また,企業との産学共同研究が非常に盛んな青木研究室に,博士課程以降の10年間を過ごしたのもあり,「最先端の研究を実用に落とす目的の(初期段階の)研究」によく携わってきた.自分のチームだけでなく,研究室には「企業との共同研究」を担当する学生が他にも多く,産学合同研究のノウハウが豊富に得られる,実用意識を磨く意味で,恵まれた環境であった.それもあって,自分の関わったプロジェクト以外でも,各社が「どのように研究成果を実際のシステムに落とし込もうとしているか」や,「今後を見越してどのように先見的な課題を先に研究するか」の例を,数多く触れることができた.私がアカデミックとビジネスの「ブリッジ役」として,2刀流が研ぎ澄まされていくための,非常に貴重な経験であった.

そうした経歴を経ている中で,論文として表にオープン発表した実績以外でも,博士課程の終盤ごろ以降には,お客様企業の研究開発のお手伝いや,研究開発相談の仕事も頂いてこなすようになっていった(※ 表向きにはこの仕事を募集していない).それらのお仕事を通して経験した,「少し詳しい研究テーマ」も,前述のオープンな成果がある得意研究分野以外に,結構持っている.

近年では,SSIIの主催するSSII2018 ~ SSII2021において,オーガナイズドセッション部会の委員を担当した.その中で,SSII委員の方々や,セッションにお招きしたトップ研究開発者の講師陣との交流・議論を通じて,CVや関連研究分野全体への俯瞰視点を高めることができた.(学会等のつながりでいつも良くしていただいてきた研究者の方々には,感謝しきれません).ぜひ,先人から受けたものを次の世代の育成として,下の世代に流していきたい.

1.3 経歴・得意分野についてのまとめ

以上のような経歴により,「中堅アカデミック研究者」・「ビジネス応用や会社運営の経験者」の両面を経験してきた.そして,実用向けへの話や,その手前の研究段階での成功だけでなく,失敗を経験したりして見てきた.また,開発者やベンチャーでの役員レベルの経験もあるので,ビジネス面や事業開発的な話や,人材確保・育成などの人事経験もあるのが,リサーチャー専業でやっている方との私の違いである.ベンチャーに居た頃には,ビジネス戦略や,先端の人事・人材育成についても,よく書籍等で勉強しながら,実際に現場を経験した.

以上を踏まえて,私のこのサイトを始めとした,CVや深層学習のエキスパートの方々向けへの「学習支援」「コーチ」「アドバイザー」のような,相談・学習支援面での仕事においては,自分だからこそ書ける 教科書・テキストにまとめるような,抽象度の高い話の紹介と,それら俯瞰・検索しやすくした整理(このサイトの場合は用語集が担当)の提供に,注力していきたい.逆に言うと,抽象度の低い,ソフトウェアや実装の話などについては,既に書籍や講座も多くて,他に支援役を出来る人も多い話なので,このサイトでは,そこまで多くを書かない.大学院レベルの内容は,準備が整いしだい,「Web上での動画講義」として,通年授業のような「コース形式」で有料提供していきたい(もちろん本も書きたい).

また,世の中にはテキストや教科書はあふれてきた一方で,手段・知恵の話が欠落していると考えている.方法論や考え方,戦略や組織運営,人材育成など「方法論」「思考法」「戦略論」の話も展開していきたい(このサイトではコラムが担当).各種テキストでは「知識」しか提供されず,知恵や方法の話が出てこない.よって,「じゃあその道具をどう組み合わせて使うんだ?」とか「理論的にはわかるけど,実場面で応用するはどうするの?」とか,「強い研究開発組織ってどう構築するの?」や「論文ってそもそもどう読めばいいの?」などの疑問が浮かんでも,その各種の「方法論・手段」の良いものを学べる書籍は限られている.このサイトの読者の中にも,そういう「手段・知恵」の学びかたや方法について相談できる人が組織内や身近におらず,困っている方も多いと思う(これは,私が「コーチ」業も展開していきたい動機でもある).

2. ビジョン以外での管理人のバックグラウンド

2.1 音系の研究からビジョンへ転向

著者は音楽好きである.高校は男声合唱部であり,大学は軽音楽サークルに所属していた.当時FF(ファイナルファンタジー)好きが高じて,中学2年生からDTMを趣味で始めた(MacでPerformerというソフトを使っていた).中学・高校の当時は,ファミコン・スーパーファミコンのゲーム音楽や,J-POP,電子音楽の耳コピをして遊んでいた.高校時代は合唱部で全国大会をめざし,その後大学でも軽音サークルだった.よって,高校くらいから,洋邦ロックバンド系の音楽も好きである(DTMで少し自作もしていたので,作曲理論は,自学してある程度は習得している).ただ,その後は,ロックバンドや歌謡曲の時代でなくなって,商業音楽には好きなアーティストが減ってしまったのもあり,近年は,映画・ドラマ・ゲームのサウンドトラックや,民族音楽系のアーティストなどが好きでよく聴いている.

以上のように音楽好きであったのもあり,B4時に最初研究室に入った当初は,「音楽」「音声」のパターン認識の研究者になりたかった.ただ,同じ電子工学科(現在は電子情報学科)に,SSII創設者の1人である「中島真人先生」の研究室があった影響もあり,修士以降はコンピュータビジョン専門に転向した.B4の頃はHMM音声認識をテーマにしていて,JuliusやHTKなどを触っていたが,あまりに難しくて,当時はやりでもあってコンピュータビジョンに転向した.その当時は,中島先生の授業から一番最初に画像処理・画像認識の基本を学んだ(※ 私の博士課程以降のボスであった青木先生の研究室は,中島真人先生のラボの,後継で始まった研究室である)

2.2 動画認識に他モーダルも加えたい

また,私がB4の頃は,隣の情報学科にある斉藤博明研究室 の,斉藤先生および音楽情報処理班と,私が所属していた研究室の音響班で,「音楽・音響情報処理」の交流ゼミを行っていた.そのおかげで,音響信号処理や音楽情報処理,更にはNLPについても,当時少しかじることができ,分野の雰囲気と基礎技術を知ることができていた.

音声認識を卒論でかじっていたので,当時の n-gram言語モデル や,HMM音声モデル について学べた.そのうえ,斉藤研究室の他の方々のNLPをテーマとした研究を通じても,自然言語処理の一端を知れたのは,近年マルチモーダルなディープラーニングを研究しはじめる際に少し有利に働いた.「古典的な技術を知っていたから有利」という側面よりは,画像・映像以外のモーダルの言語や音のパターン認識が,どういう風にどんな場面で重要であったり使えるという基礎教養をあらかじめ知れていたのが良かったと思っている.

また,その合同ゼミつながりから,修士の就活時に斉藤研究室むけにリクルーティングに来た,当時日本のGoogle研究所に移られてすぐの工藤拓さんとお話する貴重な機会を得ることにもつながった.その際に,NAIST時代の研究生活の話を色々としてくださったので,のちに私が博士課程に行こうと決心する際の動機にもつながる.

私は博士取得後に,Vision and LanguageやVision and Audioを中心テーマの1つに据えているが,それは以上のような,私の「昔からの音楽好き」や,「修士時代のNLP・音楽情報処理への接触」からずっと繋がっている話である.もちろん,私の得意とする動画認識技術や人物認識系技術を,実応用むけに研究・実応用していく点は継続する予定である.その一方で,今後はコンピュータビジョンと同時に,言語や音声・音響を入力動画データで活用する「マルチモーダル・クロスモーダル」な技術も,積極的に今後取り組んでいきたい.

(2022年の)今や,すっかりネットもスマホも「動画の時代」となった.よって,動画に含まれる,全モーダルの入力は,研究・ビジネス応用対象になると個人的には捉えている.このサイトでも,Vision and Languageや,NLP系・音声系・音響系の記事も,提供していきたい.