Scribble at 2026-04-02 07:12:48 Last modified: 2026-04-02 21:17:50

添付画像 — The Revenge of the Data Scientist

何事かを調べるのに、大量のデータを集めて解析するのではなく、単にチャッピーに聞けばいいという風潮が高まってきて、データ・サイエンスやデータ・サイエンティストがお払い箱になるという話があった。でも、LLM 時代になってもデータ・サイエンティストの仕事は逆に重要性を増しているというのが著者の意見だ。理由は、AI システムの本質的な難しさがモデルの構築にではなく、評価・実験の設計・データ品質・メトリクスの設計といった、データ・サイエンスの基礎になっているポイントにあるからだ。つまり、データ・サイエンスの知見がないと、そもそも AI を的確に利用できないという。

これは、多くの企業で生成 AI の導入が盛んに叫ばれていながら、その実態は「ノー・コード」をうたう出来合いのサービスを使うことだけだったり、最初からフローが用意されている Google Workspace のサービスをカスタマイズすることだけだったりという、フォーマットの利用に限られていることが多い実情からも言えることだろう。要するに、大半の企業における生成 AI の利用実態とは、各人が何かコンピュータで作業するときに、それまでは電卓アプリを起動していたのが、代わりにチャッピーへ「29875 x 12 は？」などと質問するようになったくらいの話でしかないと言える。

しかし、それでは AI を有効に活用していることにはならない、というわけで、この業界で色々なサービスを煽っている人々は、本当のところ大半の人々にとっては過剰かもしれない目標まで掲げて、「真の AI 活用」みたいな話をでっち上げて AI の専門家を自称する人々を講師や顧問として招いたりしている。でも、彼らの多くは（理工系の学位を持っていても）コンピュータ・サイエンスの専門家ではないし、それどころか機械学習の専門家ですらなかったりする、ただのヘビー・ユーザでしかないということもある。ここでもインチキなセミナー講師やコンサルなどが増えていて、ド田舎の自治体などへ入り込んで小銭を稼ぐ人々が出てきているようだ。

しかし、改めて基本的な知識や事実に立ち戻れば、上のブログ記事が述べていることは常識的であたりまえの話でもある。なんとなれば、いま僕らが利用している生成 AI こそ、データ・サイエンスの応用によって集積されたオンラインのコンテンツからデータを取捨選択し、それら大量のデータを学習素材として開発されているからだ。そして、そういうデータの取捨選択なり教師データとしての運用を評価するにはデータ・サイエンスの知識が必要だし、どこに現状の問題や限界があるかを見極めるにも必要だ。そして、ファイン・チューニングや RAG などによって各社に特有のコンテクストを加味して、事業や業務に最適化されたモデルを運用するにも、どういうデータをどう使うべきかは、プロンプトを弄繰り回す小手先の知識や経験だけでは正しい答えを出せない。

そして、そもそも生成 AI に何をやらせたら業務や事業計画や経営に活かせるのかという、まさに目標設定においても、評価の基準なりメトリクスの設定をするために必要最低限の知識がなければ、闇雲に生成 AI へ「いい感じのサービスを考案して」とか「わが社の経営理念を適当に考えてくれ」とオネダリし丸投げするようなものであろう。それは皮肉なことに、そのていどしか生成 AI を扱えない、あなた自身が会社にとって必要のない人材であることを証明するだけになってしまうのだ。

生成 AI の的確な運用なり利用というものは、知識と経験とデータによる条件と仮説が最初にあってこそ、次に生成 AI を有効に扱うための準備ができる。それなしに、ていどの低い作業命令を与えているだけでは、管理会計を理解せずに Excel へセルの数値を入力しているだけのオバサンと同じである。

冒頭に戻る