Scribble at 2026-04-07 18:45:48 Last modified: 2026-04-08 22:16:37

添付画像 — 井上顧基、下垣内隆太、高島直也、澤風吹『作ってわかる大規模言語モデルの仕組み』（日経BP、2026）

本日、出社したときにジュンク堂で見つけて内容をざっと眺めてから購入した。日本語で書かれた AI 関連の本としては、岡野原大輔氏の『拡散モデルデータ生成技術の数理』と菊田遥平氏の『原論文から解き明かす生成AI』を購入してから暫く何も手にしなかったのだが、ようやくお金を払うだけの価値がある本に出会った感がある。

画像生成 AI の基本的な仕組みを解説している本というのは、意外に少ない。もちろん理由は簡単で、出版する側が「売れない」と判断しているからで、その理由は、画像生成 AI のコンシューマ・ユーザは大半がエロ画像を出したいだけの小僧やオッサンだったりするので、仕組みに興味などあるはずがないからだ。もちろん、一部には写真家やイラストレータやデザイナーとして利用している人もいるが、彼らもたいてい仕組みには興味がない。あるいは、拡散モデルを開発できる環境にありながら、コンシューマ・ユーザとしても活用しているエンジニアもいるけれど、画像生成 AI の拡散モデルを開発している側のプロパーは、こういう本をもともと必要としていない（ていうか、なんなら自分でもこういう本を書けると思っている人もいるだろう）。なので、一般ユーザでありながら LLMs とりわけ画像の生成の仕組みにも関心をもっている人というのは、まさにこれから学ぼうとする学生くらいのものだろう。

これまで、LLMs を基礎から丁寧に解説している本として支持を集めてきたのは、もちろん斎藤康毅氏の『ゼロから作る Deep Learning』だったわけだが、残念ながら肝心の生成 AI については diffusion model の原理的な解説だけにとどまっていて、それ以降の LoRA などについての解説が不足していた感がある。stable diffusion については、わずか数ページで大まかに説明されているだけだ。このほど LLMs をカバーする第６巻が出るとのことだが、そこでも画像生成ではなくテキストの扱いがテーマになっているようだ。

また、Stable Diffusion や他のモデルなどを取り上げている本は幾つかあるが、フロント・エンドの操作しか説明していないものだとか、仕組みを扱っていてもそこから先のトレーニングやプロンプトなどに話が全く進んでいないとか、要するに画像生成 AI の仕組みを理解したうえでオープン・ウェイトなモデルや LoRA を運用したいとかトレーニングしたいとかプロンプトを設計したいという、僕らのようなユーザの要望を満たす本は、これだけ生成 AI の本が爆発的な数で増え続けているにもかかわらず、殆どないのが実情だ。プロンプトに至っては、「プロンプト・エンジニアリング」を騙るインチキな試行錯誤のレポートみたいな本ばかりが店頭に並ぶ始末で、そういうゴミの中にはオライリーから出版されている本まで含まれているのが情けない。

そういう中で、本書は画像生成 AI の解説書ではないものの、その原理的な仕組みを丁寧に解説していて、いまや異臭を放っている生成 AI 関連の本棚においては、数少ない良書と言ってよいだろう。また、編集方針も簡潔であり、類書によくある、Python の言語仕様を雑に解説するといった無駄なことをやっていないのも高評価だ（ただし冒頭にある線形代数などの雑な解説は寧ろ邪魔なので、これは減点だ）。それから、図説、Python の実装例、理論的な解説と三段階にして、背景知識や理解度に応じた説明をしているので、Python のコードをすべて無視しても内容が理解できるようになっている。画像生成 AI の仕組みに興味はあるが、別に Python のコーディングまでする必要は感じていないという人でも、本書で画像生成 AI について基本的な仕組みを理解できるし、実際に LoRA などをトレーニングするときに必要となる network dimension などの概念もわかるようになる。

ただしプロンプトの設計については、仕組みを理解することでヒントになるアイデアは得られると思うが、直にプロンプトの設計に使えるような知見は書かれていない。そこは、やはり実際に大量の画像を作ってきた経験が必要だし、色々なベース・モデルを運用した経験も必要となるところなので、この３年くらいのあいだに自宅のマシンで 1,035（日）× 4,800（枚/日） = 4,968,000（枚）ていどは画像を作ってきた僕ですら、その経験や知見は限られているし偏っている。なので、当サイトでこういう解説も公開していくつもりではあるが、あくまでも僕自身の経験や知識の範囲で言えることという大きな但し書きをつけて書いておきたい。

[追記：2026-04-08] それから、減点材料と言うには酷かもしれないが、書名に「作ってわかる」と書かれているものの、本書で想定している大規模言語モデルの開発はスクラッチから全てローカル・マシンで進められるわけではないという注意が必要だろう。それは、データからモデルをトレーニングする工程で利用しているグラフィック・カードが NVIDIA RTX 6000 Ada (48 GB) というスペックだからだ。これは、およそ家庭用の殆どのパソコンには搭載されていない、グラフィック・カードの単体だけで120万円もする機器である。これを十分に扱える他のスペックも揃えると、パソコン１台の予算としては200万円を超えてくる。よって、現実に本書で紹介される手順やデータを使って肝心の「学習」を実行できる人は殆どいないであろう（多くのエンジニアですら個人でそんなマシンを自宅にもっているかどうか疑問だ）。もちろん「自宅で作る」とか「ローカル環境で作る」などとは書かれていないのだから、仕方ないとは思う。しかし、機械学習の要である（それこそ名前にもあるとおり）学習が自分のマシンでやれないのだから、これはいささか拍子抜けだと感じる人もいるだろう。

冒頭に戻る