管理人の経歴や専門

1.概要

このページでは,管理人の経歴・専門についてまとめます.

特に「研究者としての経歴(大学側・ビジネス側の両面)」と「(研究・ビジネス両面での)コーチングに力を入れていきたい件」,について述べる一方で,研究者として「業績があり研究専門性の高い分野リストと,その興味動機」についてもまとめます

管理人の「経験・知恵・社会背景・視点」をこのページで少し知っていただくことで,サイトの動機サイトのウリの設計理由についての理解も深まるとありがたいです. 

2. おおまかな経歴や得意分野 (専門性の高い分野)

このサイトの著者・管理人は,わたくし Hayashi Masaki (林 昌希) です.

コンピュータビジョンの中でも動画認識の各種問題や,動画を用いた Vision-Language,Vision-Audioなどのマルチ・クロスモーダル問題の研究成果が多いです.また,人領域や物体単位 (Object-Centric)である画像認識動画・認識技術の経験が豊富であることが特徴です.青木研究室時代に参加した,各企業との共同研究プロジェクトでも,やはり人物動画での認識タスクが多いです .このあと1.1節で,それぞれに分けて詳細を述べます.

※ 企業向けに行った仕事で,他にも色々と経験があるものの,当然NDAを結んでいるものがほとんどです.公的に論文成果があるもの以外では,経験した技術を書けません.

2.1 博士進学後の略歴と今後の狙い所

2.1.1 近年の略歴

修士課程修了後は計測システム開発者として務めていたが,4年で退職して,母校であった慶應義塾大学の後期博士課程に進学しました.

後期博士課程では,青木義満先生の研究室に所属し,「チームスポーツ映像向けの,人物追跡と人物姿勢推定」を研究誌,博士号を取得しました (2015年末).その後,技術相談の顧客であった株式会社Liquid に,役員(研究子会社の代表・)として参加しました.退任するまでの初期フェーズにおいて,研究部門長と,生体認証チームへの技術相談を担当していました.その一方で,慶應でも引き続き研究員として働きました.

その時期の慶應での大学研究員としては,学生3名編成のチームを担当し,「研究テーマ策定」から一任させて頂いていました(講座制ラボの准教授のような状況).私のチームでは,(テニスやリビング空間での)行動イベントの認識・検出,画像対画像変換(画像補間),Video-Text認識・検索に,複数人物追跡などで,研究成果を発表しました (詳しくは PublicationsGoogle Scholarを参考のこと).

また,担当した各学生は,B4で最初私のチームで研究の基礎を身につけたあと,M1以降,産総研のビジョンチームにRAに行くケースも多く,修士後半から,毎年のように大きな論文成果を出していました.この「安定して毎年急成長に成功した」経験は,私の「初心者へのトレーニング力」の自信ともなりました.もちろん,師匠や,ラボ環境としての指導の良さも影響はしていますが,そのノウハウも私は身につけており運用可能です.この経験が,このサイトの開設を手始めに,今後は中級者の学習・成長支援活動に,もっと重きを置こうと決心した理由です.

また個人としてもこの時期に,SSIIのオーガナイズドセッション部会で,委員を4年間担当させていただき,部会長まで務めました(2018~2021年).大きな会議の企画を経験したことで高い経験値を得られたので,非常に良かったです(当時,関係各位には,大変お世話になりました).

一方,コンピュータビジョン研究者・企業向けへの,研究開発アドバイザーコーチングも行っています.以前から,表立った募集をしたことはないのですが,社会人博士の中盤ごろ(2013年頃)から,こうした企業からの依頼がポツポツと入るようになり,ここ10年ほど,技術相談や企業の研究開発のお手伝いをさせて頂いています.

2.1.2 今後の狙っている所

(2021年以降の)今後は,このサイトでの学習・成長の支援の仕事や,有料の「大学授業的な講座」や,書籍執筆に動画作成なども,なりわいにしていきたいと考えています.著者は,若手のゼロからの育成や,執筆・講師業に,実績と自信があります.よって,学習支援・コーチングでも,今後この業界で貢献していきたいからです.

このサイトでは,情報系の大学・大学院で提供されているレベルの「コンピュータビジョン・ディープラーニングの授業・テキスト」を,大学以外の場所で提供することで,日本の中級者層の全体的なパワーアップを手伝うことが,次段階として目指しているゴールです

このあと2.2節,2.3節をご覧になるとわかるように,私は「多様で変わった経歴」の持ち主です.ずっと論文書いている研究者とは異なり,新卒後色んな仕事を経験してきました.よって,保持しているスキルセットは,研究者一筋の方とは大きく異なります.

企業と大学をいったりきたりしていた上,行った仕事も研究に留まりません.ビジネスや価値創出の意識も強いです.それこそ,ここ10年は「産業側とアカデミック側の半々」な感じで,キャリア形成をしておりました.当然,企業勤めやフリーランス仕事も長いので,金勘定の話もしてきましたし,ベンチャーで組織作りや準役員の経験もしたことで,や企業組織論の話も,研究者としてはかなり詳しく,実際に経験するなかで,失敗も含めて四苦八苦してきた経験があります.

論文の成果をたくさん積むのもそれはそれで貢献なのですが「コンピュータビジョンやディープラーニングは,そのほとんどが応用」であるので,私は,実際のビジネスや商品・価値にも,貢献したいと考えています.一方で,コーチングして人を育てたり,わかりやすく講義や学習教材つくることにも自信があるので,ライティング・講義研究開発コーチングといった,人材育成の面でも今後は貢献していきたいです.

2.2 2016~2021年の研究分野

博士課程進学以降は,コンピュータビジョンの中でも,人物認識(人物姿勢推定や人物追跡)や,動画行動認識を,主に研究成果として発表してきた.

近年の,アカデミックな研究発表成果は,画像補間や,動画行動認識,Vision-Language/ Vision-Audio (マルチ・クロスモーダル認識)などです:

ひとまとめに無理やり言うなら「動画認識問題の全般(特に人物が対象)」がこの5年の私の研究の特色です.また,深層生成モデルや画像対画像変換モデルも研究してきたので,認識だけでなく,生成や変換(人物に限らず)も,守備範囲です.

加えて,上記の各研究でよく使用してきた「Triplet-loss系ロスなどを用いたDeep Metric 対照学習による検索Embedding 学習」に対する専門性が高いのも,私の大きな専門性の1つです.Re-ID・人物追跡や,画像検索(Re-IDや顔認証)に,Video-text embedding や Video-sentence Groundingなどで,対照表現学習や(Deep)ランキング損失を,ここ数年頻繁に用いてきました.Metric学習にはうるさいです.また,画像モーダルのみも,V-L, V-Aクロスモーダルでも知見があります.

こういった得意分野に関する深い話は,当サイトではなく,有料書籍や講義などで,少しあとの時期に提供するとして(※),しばらくの間,しばらく,大学院生向け 〜 修士卒の企業研究者が,良い復習になるような「標準的技術」について,記事をコツコツ書いて充実させていきたい(最先端の研究はこのサイトでは追わない).

※ 長年研究を経験済みのテーマほど,私にかぎらず経験から得た独自知見の稀少価値が高い.よって,このサイトでそれらを無料提供するほどの大盤振る舞いはできない.

また,用語集のトップページなどでも書いているように,既存テキストや国際会議には載ってなくて・まだ日本語だとよい解説が見つからないようなトピックも,先行して記事を提供したい(例:FPNTransformerインスタンスセグメンテーションなど).

2.3 アカデミック・ビジネスの「2刀流」

著者は,修士課程修了後の新卒時,まずはエンジニアとして4年間システム開発者として働いていた.計測器のAPIを用いて,C++/C#/Javaでメーカー向けに計測システムを開発する業務を行っていた(※ 少人数受託開発なので,自分で設計もコードもテストも,全て書いていた).その最初の会社を退職したのち,母校に戻り,博士課程に進学した(ただしある程度,働きながら生活費は稼ぎながらの学生生活).

博士課程の終盤以降は,技術コンサルの仕事なども私個人むけに頂くようになり,その後は「企業向けの研究開発者・技術相談役」と「大学研究員 (第2主著者として,学生の研究テーマの主担当ディレクター)」の,2足のわらじとなった.

また,このサイトの前身の「DERiVEコンピュータビジョンビジョンブログ」で,よく情報発信していたこともあり,博士課程の後半の時期に,Point Cloud Library(PCL)関連で,SSIIチュートリアルに登壇したことを皮切りに,企業研究開発者向けの有料セミナーをさせていただくようにもなり,当時の点群処理・ロボットビジョンにも触れることができた.

企業との産学共同研究が非常に盛んな青木研究室で,博士課程以降の10年間を過ごしたのもあり,「最先端の研究を実用に落とす目的の (初期段階の) 研究」によく携わってきた.自分のチームだけでなく,研究室には「企業との共同研究」を担当する学生が他にも多く,産学合同研究のノウハウが豊富に得られた.研究成果の実用への高い意識を磨く意味で,恵まれた環境であったと思う.自分の関わったプロジェクト以外でも,「どのように研究成果を実際のシステムに落とし込もうとしているか」や,「今後を見越してどのように先見的な課題を先に研究するか」の実例に,数多く触れることができた.私がアカデミックとビジネスの「ブリッジ力」を強めて,2刀流が研ぎ澄まされていく上で,非常に貴重な経験であった.

そうした経歴を経ている中で,論文として表にオープン発表した実績以外でも,博士課程の終盤ごろ以降には,お客様企業の研究開発のお手伝いや,研究開発相談の仕事も頂いてこなすようになっていった(※ 表向きには,仕事を募集したことがない).それらのお仕事を通して経験した,「少し詳しい研究テーマ」も,前述のオープンな成果がある得意研究分野以外に保持している.

近年では,SSIIの主催するSSII2018 ~ SSII2021において,オーガナイズドセッション部会の委員を部会長まで担当した.その中で,SSII委員の方々や,セッションにお招きしたトップ研究開発者の講師陣との交流・議論を通じて,CVや関連研究分野全体への俯瞰視点を高めることができた (学会等のつながりでいつも良くしていただいてきた研究者の方々には,感謝しきれない).

ただし,コラム記事を用意していることでもわかるように,普段の私の指導は「手段の向上」を重視して,あとは自律性に任せていることがポイントである.実際,このサイトも寺よりは神社型であるのはそういった理由からである.最も伝えたいのは,知識ではなく「知恵や疑問の向上に,普段の行動の向上」である (とはいえ,良いテキストがあるにこしたことはないので,用語集はしっかり充実させていく).

2.4 経歴・得意分野についてのまとめ

以上のように,私は「中堅アカデミック研究者」「ビジネス応用や会社運営の経験者」の両面を経験してきた.そして,実用向けへの話や,その手前の研究段階での成功だけでなく,失敗を経験したりして見てきた.また,開発者やベンチャーでの役員レベルの経験もあるので,ビジネス面や事業開発的な話や,人材確保・育成などの人事経験もあるのが,リサーチャー専業でやっている方との私の違いである.

ベンチャーに居た頃には,ビジネス戦略や,人事・人材育成についても,よく書籍等で勉強しながら,実際に現場でも経験・実践してきた.また製品や研究内容の「儲かる・儲からない」「役に立つ・役に立つ」の話も,事例ベースや経験を踏まえて議論できる.このサイトでは,そういった経営層目線の組織論やビジネスづくりの話までは,あまり行わないが,研究チームに所属する皆様にむけての「チーム運営方法指南」や,「部下へのコーチングの話」などについては,のちのち「コラム」で記事を展開していきたい.

以上を踏まえて,私のこのサイトを始めとした,CVや深層学習が専門の方々への相談・学習支援面の仕事では,自分だからこそ書ける「教科書・テキストにまとめるような,抽象度の高い話の紹介と,それらを俯瞰・検索しやすくしたサイト」(特に用語集が担当)の提供に,このサイトは注力していきたい.

逆に言うと,抽象度の低い,ソフトウェアや実装の話などについては,既に書籍や講座も多くて,他に支援役を出来る人も多い話であるゆえ,このサイトでは多くを書かない.このサイトが充実してきたのちは,準備が整いしだい「Web上での動画講義」として,通年授業のような「コース形式」でも学習素材を皆様に提供していきたい.

また,世の中にはテキストや教科書はあふれてきた一方で,手段・知恵の話が不足していると考えている.方法論や考え方,戦略や組織運営,人材育成など「方法論」「思考法」「戦略論」の話も展開していきたい(このサイトではコラムが担当).

各種テキストでは「知識」しか提供されず,知恵や方法の話がほとんど出てこない.よって「じゃあその道具をどう組み合わせて使うんだ?」とか「理論的にはわかるけど,実場面で応用するはどうするの?」は,書籍や講座では学びづらい.よくあるAIスキルアップ授業やWeb講座の多くも,結局は大学の授業の代替である(しかも,その人の道のトッププロじゃないひとが講師を行っていて更に良くない).

また,「強い研究開発組織ってどう構築するの?」や「論文ってそもそもどう読めばいいの?」などの組織論的な話や,個人の行動最適化などの疑問が浮かんでも,各種の「方法論・手段」について学べる書籍は限られている.私はそうした探究力を高める話に,少しずつ支援活動の重点を移していきたい.

※ 用語集も,単なる知識の羅列にはしていない.

このサイトの読者の中にも,そういう「手段・知恵」の学びかたや方法について相談できる人が組織内や身近におらず,困っている方も多いと思うので,それを用語集の中でのノウハウ提供や,考える・行動力を伸ばす「コラム」で,部分的に解決して頂きたい.これが,私が「コーチ」業「教材提供業」も展開していきたい動機でもある.特に,プロの相談相手がいなくて困っている企業の方々に向けてである.

ただし,そうした「手段・知恵・ノウハウ」は高い付加価値・希少価値があるので,本格的なものについては有料のコーチング・もしくは有料コンテンツのみで提供させていただく.

3. ビジョン以外での管理人の背景

3.1 音系の研究からビジョンへ転向

著者は,音楽好きである.高校は男声合唱部であり,大学は軽音楽サークルに所属していた.当時FF(ファイナルファンタジー)好きが高じて,中学2年生からDTMを趣味で始めた(MacでPerformerというソフトを当時は使っていた.大学時はRollandのSONAR).中学・高校の当時は,ファミコン・スーパーファミコンのゲーム音楽や,J-POP,電子音楽の耳コピをして遊んでいた.高校時代は合唱部で全国大会をめざし,その後大学でも軽音サークルだった.よって,高校くらいから,洋邦ロックバンド系の音楽も好きである (DTMで少し曲も自作もしていたので,作曲理論は自学である程度は習得している).

ただ,その後は,ロックバンドや歌謡曲の時代でなくなって,商業音楽には好きなアーティストが減ってしまったのもあり,近年は,映画・ドラマ・ゲームのサウンドトラックや,民族音楽系のアーティストなどが好きでよく聴いている.あと,ここ10年は特にSnarky Puppy (ジャズフュージョン系の米国人気バンド) の大ファンである.

以上のように,音楽好きであったこともあり,B4時に最初研究室に入った当初は,音楽・音声のパターン認識の研究をはじめたかった.ただ,同じ電子工学科(現在は電子情報学科)に,「中島真人先生(SSII創設者の1人)」の研究室が存在していた影響もあり,修士課程以降は,コンピュータビジョンの研究に転向した.B4の頃はHMM音声認識を研究テーマにして,JuliusやHTKなどを触っていたが,あまりに難しくて,当時はやり始めでもあったので,コンピュータビジョンに転向した感じである.その当時は,中島先生の授業で,画像処理・画像認識の基本を学んだ

※ 私の博士課程以降のボスであった青木先生の研究室は,中島真人先生のラボの後継として当初始まった研究室である

3.2 動画認識に他モーダルも加えたい

また,私がB4の頃は,隣の情報学科にある斉藤博明研究室 の,斉藤先生および音楽情報処理班と,私が所属していた研究室の音響班の2チームで,「音楽・音響情報処理」の合同交流ゼミを行っていた.そのおかげで,音響信号処理や音楽情報処理,更にはNLPについても,当時少しかじることができ,分野の雰囲気と基礎技術を知ることができていた.音声認識を卒論でかじっていたので,当時の n-gram言語モデル や,HMM音声モデル について学べた.そのうえ,斉藤研究室の他の方々のNLPをテーマとした研究を通じても,自然言語処理の一端を知れたのは,近年マルチモーダルなディープラーニングを研究しはじめる際に少し有利に働いた.

私は博士取得後に,Vision and Language や Vision and Audio も中心テーマの1つに据えているが,それは以上のような,私の「昔からの音楽好き」や,「修士時代のNLP・音楽情報処理への接触」からずっと繋がっている話である.もちろん,私の得意とする動画認識技術や人物認識系技術を,実応用むけに研究・実応用していく方針(もといキャリア戦略)は継続する予定である.その一方で,今後はコンピュータビジョンと同時に,自然言語や音声・音響を入力動画データで活用する「マルチモーダル・クロスモーダル」な技術も,積極的に今後取り組んでいきたい.

(2022年の) 今や,すっかりネットもスマホも「動画の時代」となった.よって,動画に含まれる,全モーダルの入力は,研究・ビジネス応用対象になると個人的には捉えている.このサイトでも,Vision and Languageや,NLP系・音声系・音響系の記事も提供できればと考える.