著者の経歴や専門

このページでは,管理人の経歴・専門についてまとめる.特に「研究者としての経歴(大学側・ビジネス側の両面)」と「(研究・ビジネス両面での)コーチングに力を入れていきたい件」,および,研究者として「業績があり研究専門性の高い分野リストと,その興味動機」について主にまとめる.

このページを読んでいただくと,管理人が,どのような「経験・知恵・社会背景・視点」などをもとに,このサイトの目的と狙いを定めているか,理解していただけると思う. 

1. おおまかな経歴や得意分野 (専門性の高い分野)

このサイトの著者・管理人は,わたくし Hayashi Masaki (林 昌希) である.

コンピュータビジョンの中でも,動画認識の各種認識問題や,動画を用いたVision-Lanagage Vision-Audioなどのマルチ・クロスモーダル問題の研究成果が多い.企業向けには他にも色々経験があるが,当然どれもNDAがあり,ここではPublicにできないので他に何が強いかは書けない.

修士課程修了後は計測システム開発者として務めていたが,4年で退職して,母校であった慶應義塾大学の後期博士課程に進学した.後期博士課程では,人物追跡と人物姿勢推定を融合したチームスポーツ映像向けの研究を行い,博士号を取得した (2015年末).

その後,ベンチャーに役員として参加し,研究部門長を担当しながら,慶應でも引き続き研究員として働いた.研究員としては,学生3名編成のチームを担当し,実際は第2著者の役割であり,研究テーマも任せて頂いていた.その中では,行動イベントの認識・検出,画像変換(画像補間),Video-Text認識・検索に,複数人物追跡などで,研究成果を発表した(PublicationsGoogle Scholarを参考のこと).

また,SSIIのオーガナイズドセッション深いで4年間(2018~2021)委員を部会長まで務めるなど,大きな学会の企画側も経験済みである.年齢も40歳を過ぎたので,学会で部会長がまわってきた年次相応と言ったところではあるが,既に大きな会議の企画を経験できたは個人的には高い経験値を得られてよかった.

2020年に地元の大阪に戻って以降は,コンピュータビジョン研究者・企業向けへの,研究開発アドバイザーやコーチングも仕事で行っている.以前から,表立った募集をしたことはないのだが,社会人博士の中盤ごろ(2013年頃)から,こうした企業からの依頼が入るようになり,ここ10年ほど,技術相談や企業の研究開発のお手伝いをさせて頂いている.

(2021年以降の)今後は,このサイトや,有料の「大学授業的な講座」や,書籍や動画作成などの『学習支援業』もなりわいにしていきたい.著者は,若手のゼロからの育成や,執筆・講師業に,実績と自信がある.よって,その学習支援・コーチングでも,今後この業界で貢献していきたいからである.

情報系の大学・大学院で提供されているレベルの「コンピュータビジョン・ディープラーニングの授業・テキスト」を,大学以外の場所で提供することで,日本の中級者層の全体的なパワーアップを手伝うことが,(2020年以降の)次段階として,私が目指しているゴールである(※ お手伝いさせていただく皆さまの研究力成長や,ビジネス成果を優先).

このあと1.1節以降で述べるが,私は「多様で変わった経歴」の持ち主である.ずっと論文書いている研究者とは異なり,新卒後色んな仕事を経験してきたので,保持しているスキルセットが研究者一筋のかたとは異なり,企業と大学をいったりきたりしていた上,行った仕事も研究に留まらない.ここ10年は「産業側とアカデミック側の半々」な感じで,キャリア形成をしてきた.当然,企業勤めやフリーランス仕事も長いので,金勘定の話もしてきた上に,ベンチャーで組織作りや準役員の経験もしたことで,ビジネスの話も研究者としてはかなり詳しい.実際に経験して失敗も含めて四苦八苦してきた.

論文の成果をたくさん積むのもそれはそれでいいが,「コンピュータビジョンやディープラーニングはほとんどが応用」なので,私は,実際のビジネスや商品に貢献したいと考えている.一方で,コーチングして人を育てたり,わかりやすく講義や学習教材つくることにも自信があるので,ライティング・講義研究開発コーチングといった,人材育成の面でも今後は貢献していきたいわけである.

1.1 ここ5年ほど (2016~2021年)の研究分野

博士課程進学以降は,コンピュータビジョンの中でも,人物認識(人物姿勢推定や人物追跡)や行動認識を,主に研究成果として発表してきた.近年の,アカデミックな研究発表成果は,画像のインペインティングや,動画行動認識,Vision and Language/Audio (クロスモーダル認識)が,主な研究成果である.具体的には,以下の各研究課題が,公知の論文があり守備範囲といえるテーマである (具体的には個人サイトの発表文献一覧を参照):

  • 人物認識:
    • 人物姿勢推定:チームスポーツ映像からの選手の2Dボーン推定 (博士論文テーマ).
    • 複数人物追跡.(および,その際に必須の物体検出や,人物Re-ID(対照学習)のノウハウ)
    • 行動認識・行動検出・行動遷移認識など.
  • 画像対画像変換:
    • 画像のインペインティング・アウトペインティング(for 360度カメラ映像).
    • 補間ロス・マスク化により学習する,画像周辺コンテキスト特徴の学習(ContextEncoderから始まった話題).
  • Vision and Languageとそのためのクロスモーダルアテンション (そのなかでも動画に特化):
    • 動画での Visual-Sentence Embedding (Video-Text Retrieval)
    • Video Action Grounding (文章クエリからの動画モーメント検索).
    • 動画での Audio-visual イベント検出

ひとまとめにまとめると「動画認識問題の全般(特に人物が対象)」が専門であるというのが,私のこの5年の特色である.

加えて,上記の各研究でよく使用してきた「Triplet-loss系ロスなどを用いた対照学習による検索Embedding 技術」に対する専門性が高いのも,私の特色である.Re-ID・人物追跡や,Video-text embedding や Video-sentence Groundingなどでも,対照表現学習や(Deep)ランキング損失を,ここ数年頻繁に用いてきた.つまり,1モーダルもクロスモーダルも,両方Embedding学習を経験している.

こういった得意分野の深い話は,今後少しあとの時期に提供するとして(※),しばらくの間,このサイトでは,大学院生向け 〜 修士卒の企業研究者が,良い復習になるような「標準的技術」について,記事をコツコツ書いて充実させていきたい(※).

また,中級者向けのサイトであるので,既存テキストや国際会議には載ってない・よい解説が見つからないようなトピックも,早めに提供していきたい(例:FPN系列対系列変換 Transformerなど).

※ 長年研究を経験済みのテーマほど,私にかぎらず経験から得た独自知見の稀少価値が高い.よって,このサイトでそれらを無料提供するほどの大盤振る舞いはできない.

1.2 アカデミック研究・ビジネス向け研究の「2刀流」

著者は,修士課程修了後の新卒時,まずはエンジニアとして4年間システム開発者として働いていた.計測器のAPIを用いてC++/C#/Javaでメーカー向けに計測システムを開発する業務を行っていた(※ 少人数受託開発なので,自分でコードも全て書く).その最初の会社を退職したのち,母校に戻り,フルタイムの学生として,博士課程に進学した(ただしある程度,働きながら生活費は稼ぎながらの学生生活).

博士課程の終盤以降は,技術コンサルの仕事なども私個人むけに頂くようになり,その後は「企業向けの研究開発者・技術相談役」と「大学研究員(第2主著者として,学生の研究テーマの主担当者)」の,2足のわらじとなった.また,このサイトのDERiVEコンピュータビジョンビジョンブログで,よく情報発信していたこともあり,博士課程の後半の時期に,Point Cloud Library(PCL)関連で,SSIIチュートリアルに登壇したことを皮切りに,企業研究開発者向けセミナーをさせていただき,当時の点群処理・ロボットビジョンにも触れることができた.

また,企業との産学共同研究が非常に盛んな青木研究室に,博士課程以降の10年間を過ごしたのもあり,「最先端の研究を実用に落とす目的の(初期段階の)研究」によく携わってきた.自分のチームだけでなく,研究室には「企業との共同研究」を担当する学生が他にも多く,産学合同研究のノウハウが豊富に得られた.よって,研究成果の実用への高い意識を磨く意味で,恵まれた環境であったと思う.自分の関わったプロジェクト以外でも,各共同研究相手の企業が「どのように研究成果を実際のシステムに落とし込もうとしているか」や,「今後を見越してどのように先見的な課題を先に研究するか」の例を,数多く触れることができた.私がアカデミックとビジネスの「ブリッジ役」として,2刀流が研ぎ澄まされていくための,非常に貴重な経験であった.

そうした経歴を経ている中で,論文として表にオープン発表した実績以外でも,博士課程の終盤ごろ以降には,お客様企業の研究開発のお手伝いや,研究開発相談の仕事も頂いてこなすようになっていった(※ 表向きには,この仕事を募集したことがない).それらのお仕事を通して経験した,「少し詳しい研究テーマ」も,前述のオープンな成果がある得意研究分野以外に保持している.

近年では,SSIIの主催するSSII2018 ~ SSII2021において,オーガナイズドセッション部会の委員を担当した.その中で,SSII委員の方々や,セッションにお招きしたトップ研究開発者の講師陣との交流・議論を通じて,CVや関連研究分野全体への俯瞰視点を高めることができた(学会等のつながりでいつも良くしていただいてきた研究者の方々には,感謝しきれない).ぜひ,先人から受けたものを,次の世代の育成として,下の世代に流して受け渡していきたい.

ただし,コラム記事を用意していることでもわかるように,普段の私の指導は「手段の向上」を重視して,あとは自律性に任せていることがポイントである.実際,このサイトも寺よりは神社型であるのはそういった理由からである.最も伝えたいのは,知識ではなく「知恵や疑問の向上に,普段の行動の向上」である (とはいえ,良いテキストがあるにこしたことはないので,用語集はしっかり充実させていく).

1.3 経歴・得意分野についてのまとめ

以上のように,私は「中堅アカデミック研究者」「ビジネス応用や会社運営の経験者」の両面を経験してきた.そして,実用向けへの話や,その手前の研究段階での成功だけでなく,失敗を経験したりして見てきた.また,開発者やベンチャーでの役員レベルの経験もあるので,ビジネス面や事業開発的な話や,人材確保・育成などの人事経験もあるのが,リサーチャー専業でやっている方との私の違いである.

ベンチャーに居た頃には,ビジネス戦略や,人事・人材育成についても,よく書籍等で勉強しながら,実際に現場でも経験してきた.「儲かる・儲からない」「役に立つ・役に立つ」の話も,ちゃんと事例ベースや実経験で議論できると思う (ただ,このサイトでは,そこまでの話まではあまりしないが).

以上を踏まえて,私のこのサイトを始めとした,CVや深層学習が専門の方々への相談・学習支援面の仕事では,自分だからこそ書ける「教科書・テキストにまとめるような,抽象度の高い話の紹介と,それらを俯瞰・検索しやすくしたサイト」(特に用語集が担当)の提供に,このサイトは注力していきたい.

逆に言うと,抽象度の低い,ソフトウェアや実装の話などについては,既に書籍や講座も多くて,他に支援役を出来る人も多い話であるゆえ,このサイトでは多くを書かない.このサイトが充実してきたのちは,準備が整いしだい「Web上での動画講義」として,通年授業のような「コース形式」でも学習素材を皆様に提供していきたい.

また,世の中にはテキストや教科書はあふれてきた一方で,手段・知恵の話が不足していると考えている.方法論や考え方,戦略や組織運営,人材育成など「方法論」「思考法」「戦略論」の話も展開していきたい(このサイトではコラムが担当).

各種テキストでは「知識」しか提供されず,知恵や方法の話がほとんど出てこない.よって「じゃあその道具をどう組み合わせて使うんだ?」とか「理論的にはわかるけど,実場面で応用するはどうするの?」は,書籍や講座では学びづらい.よくあるAIスキルアップ授業やWeb講座の多くも,結局は大学の授業の代替である(しかも,その人の道のトッププロじゃないひとが講師を行っていて更に良くない).

また,「強い研究開発組織ってどう構築するの?」や「論文ってそもそもどう読めばいいの?」などの組織論的な話や,個人の行動最適化などの疑問が浮かんでも,各種の「方法論・手段」について学べる書籍は限られている.世間にあるのは「高校大学的授業」ばかりであり,私はそれ以外の「探究力を高める話」に,少しずつ重点を移していきたい.(用語集も,単なる知識の羅列にはしていないので,その点は意識している)

このサイトの読者の中にも,そういう「手段・知恵」の学びかたや方法について相談できる人が組織内や身近におらず,困っている方も多いと思うので,それを用語集の中でのノウハウ提供や,考える・行動力を伸ばす「コラム」で(これが,私が「コーチ」業「教材提供業」も展開していきたい動機でもある.特に,プロの相談相手がいなくて困っている企業の方々に向けてである.).

2. ビジョン以外での管理人のバックグラウンド

2.1 音系の研究からビジョンへ転向

著者は,音楽好きである.高校は男声合唱部であり,大学は軽音楽サークルに所属していた.当時FF(ファイナルファンタジー)好きが高じて,中学2年生からDTMを趣味で始めた(MacでPerformerというソフトを当時は使っていた.大学時はRollandのSONAR).中学・高校の当時は,ファミコン・スーパーファミコンのゲーム音楽や,J-POP,電子音楽の耳コピをして遊んでいた.高校時代は合唱部で全国大会をめざし,その後大学でも軽音サークルだった.よって,高校くらいから,洋邦ロックバンド系の音楽も好きである (DTMで少し曲も自作もしていたので,作曲理論は自学である程度は習得している).

ただ,その後は,ロックバンドや歌謡曲の時代でなくなって,商業音楽には好きなアーティストが減ってしまったのもあり,近年は,映画・ドラマ・ゲームのサウンドトラックや,民族音楽系のアーティストなどが好きでよく聴いている.あと、ここ10年は特にSnarky Puppy (ジャズフュージョン系の米国人気バンド) の大ファンである.

以上のように,音楽好きであったのこともあり,B4時に最初研究室に入った当初は「音楽」「音声」のパターン認識の研究をはじめたかった.ただ,同じ電子工学科(現在は電子情報学科)に,「中島真人先生(SSII創設者の1人)」の研究室が存在していた影響もあり,修士課程以降は,コンピュータビジョンの研究に転向した.B4の頃はHMM音声認識をテーマにしていて,JuliusやHTKなどを触っていたが,あまりに難しくて,当時はやりでもあったのでコンピュータビジョンに転向した感じである.その当時は,中島先生の授業から一番最初に画像処理・画像認識の基本を学んだ(※ 私の博士課程以降のボスであった青木先生の研究室は,中島真人先生のラボの後継で最初は始まった研究室である)

2.2 動画認識に他モーダルも加えたい

また,私がB4の頃は,隣の情報学科にある斉藤博明研究室 の,斉藤先生および音楽情報処理班と,私が所属していた研究室の音響班では,「音楽・音響情報処理」の交流ゼミを行っていた.そのおかげで,音響信号処理や音楽情報処理,更にはNLPについても,当時少しかじることができ,分野の雰囲気と基礎技術を知ることができていた.

音声認識を卒論でかじっていたので,当時の n-gram言語モデル や,HMM音声モデル について学べた.そのうえ,斉藤研究室の他の方々のNLPをテーマとした研究を通じても,自然言語処理の一端を知れたのは,近年マルチモーダルなディープラーニングを研究しはじめる際に少し有利に働いた.「古典的な技術を知っていたから有利」という側面よりは,画像・映像以外のモーダルの言語や音のパターン認識が,どういう風にどんな場面で重要であったり使えるという基礎教養をあらかじめ知れていたのが良かったと思っている.

また,その合同ゼミつながりから,修士の就活時に斉藤研究室むけにリクルーティングに来た,当時日本のGoogle研究所に移られてすぐの工藤拓さんとお話する貴重な機会を得ることにもつながった.その際に,NAIST時代の研究生活の話を色々としてくださったので,のちに私が博士課程に行こうと決心する際の動機にもつながる.

私は博士取得後に,Vision and Language や Vision and Audio を中心テーマの1つに据えているが,それは以上のような,私の「昔からの音楽好き」や,「修士時代のNLP・音楽情報処理への接触」からずっと繋がっている話である.もちろん,私の得意とする動画認識技術や人物認識系技術を,実応用むけに研究・実応用していく点は継続する予定である.その一方で,今後はコンピュータビジョンと同時に,言語や音声・音響を入力動画データで活用する「マルチモーダル・クロスモーダル」な技術も,積極的に今後取り組んでいきたい.

(2022年の) 今や,すっかりネットもスマホも「動画の時代」となった.よって,動画に含まれる,全モーダルの入力は,研究・ビジネス応用対象になると個人的には捉えている.このサイトでも,Vision and Languageや,NLP系・音声系・音響系の記事も,提供していきたい.