1. state-of-the-art (最先端の, SOTA)とは
state-of-the-art (最先端の)とは 「最先端の(技術)」という意味をあらわす,コンピュータサイエンスでよく用いられる慣用句である.省略して SOTAと書かれることも多い.
特に,パターン認識やディープラーニング界隈のような,近年の技術革新頻度が高い分野では,研究者たちが最新の良い手法を「state-of-the-art model (最先端のモデル, SOTA モデル)」などのように言うことで,その手法が「最先端の(=もっとも現代的で,最高性能の,進歩した)手法である」と主張する場合に,この言葉をよく用いる.
パターン認識分野の論文では,実験の章において,目標とするタスクでの認識精度や予測精度を,ベンチマークとなるデータセットで学習した結果同士で,モデルの良さを比較する.その結果として,提案手法の新規性(novelty)や,貢献(contribution)が大きいことを主張したい.そうした中で,実験においては,既に査読論文化済みであったり,会議発表済みの「従来の予測モデル」のうち,一番精度のよい手法や予測モデルを,提案手法のライバルとして「最先端」だと呼びたい.このとき,英語(論文)では “state-of-the-art models”とか,”state-of-the art techniques”などとも,表現することが多い.
2. 「最先端(研究)=高い価値」となるとは限らない
管理人のTwitter上ではなんどか話しているが,最先端だからといって高い価値になるとは限らない.先端技術の(盲目的な)フォロワーと化してしまって,
そもそも,(最先端の)研究成果をしたからといって,それが実用的な価値やビジネスに
この意味では,認識精度の更新や,各種の数値的な指標の更新に,ランキングやコンペティションで勝つことだけが価値と信じてやまないひとも,注意が必要である.あなたは数字的勝負(高精度化やランキング勝負)にとらわれてしまっていないだろうか? その問題より,取組むべき課題は見つけれるのではないであろうか?また,研究なぞしなくとも,世の中の身近な問題は,既にレガシー化もはじまっている「このサイトで取り上げる標準的なスキル」だけで,十分解決できてしまったりしないであろうか?
何か1つの指標だけで「競う」ことは,わかりやすい指標にはなるものの,それ以外の数値化できない指標を観察できないということにもつながる.
※ビジネス指標での数値目標(利益目標,KPIなど)でも似たような罠があると言える
2.1 「抽象化能力」の大事さ
まだ学生の若い人や,仕事の能力未熟な人に見受けられるパターンは,「具体的な(数値や物)」では思考できるけども,数値化はできない,曖昧で,抽象度が高いものが苦手でうまく取り扱えないというところにある.
例えば,人事や管理,多面的な他人の能力評価,コミュニケーション(特に国語力),予定や計画の策定などがある.いずれも「数値化しづらい抽象化能力が必要な対象」であるので,抽象化能力が低く,具体的なものでないと把握できないレベルの人には,それら対象の把握には著しく弱いという欠点がでてしまう.
これでは,いくら研究で精度が高いアルゴリズムを作れても,その先が何も実現できない.技術バカとか理論偏重と言われて終わってしまい,非常に好くないし,せっかく頑張って研究しても世の中に何も貢献しない.
また,昨今のAI推進の中で批判的な記事や態度としてよく言われる「一部AI研究者や企業のモラル度外視」「倫理観の欠如(搾取構造への無理解や,事業領域へのリスペクトのなさ・無関心)」なども,こういった未熟さから来ていることも大きい.倫理観のなさ=「(抽象的な)創造力の欠如」や「予測力の欠如」である.予測システムを研究しているみなさんが,現実の予測力に欠けているようでは本末転倒である.そんなことでは,よくない未来に向かって突き進むマッドサイエンティストになってしまい,その結果,気づいたら周りや,社会に,大きな害を振りまいていたという結果にもなりかねない.
現代のITビジネスや機械学習理論に,深層学習応用は,複雑で曖昧で,多面的で多様である.会社や組織は,同類を採用して似た素質の者同士で固まるので,周りの人間も基本同類であり,抽象化能力の面を助けてもらえる人は,近くにはいないと考えるほうが良い.みずからの「抽象化能力」を伸ばすのが大事であると教えておき,この記事を終わることにする.