Scribble at 2025-03-17 09:13:50 Last modified: unmodified

添付画像 — Big LLMs weights are a piece of history

オンラインのコンテンツをアーカイブする一つのアイデアとして、これまでにも圧縮するという話はあったけれど、これは既存のデータベースでもデータを格納する際に実行していることなので（バイナリ化するとは、要するにそういうことだ）、あまりインパクトはなかった。そこで、昨今の流行もあって LLM の学習データとして「格納」してはどうかという、僕には何か皮肉めいて聞こえるアイデアが提案されている。

もちろん、情報科学の初等的な理屈から言えば、こんなことは「アーカイブ」でもなんでもない。なぜなら、或るテキスト情報を正確に再現（復号）できるようなアルゴリズムとして、データと属性とをセットにして（LLM の場合はテンソル形式で）保存するというなら、それはおそらく「"keep" という単語が第何番目の単語として出現し云々」という内容で記録することとなるが、これはテキスト情報をそのまま保存するよりも非効率だからである（以下の二つの保存形式を比べよ）。

"A red fox is jumping on the floor."

"A[0] red[1] fox[2] is[3] jumping[4] on[5] the[6] floor[7] .[8]"

LLM の学習データとして取り込めば、確かに或る確率で二つや三つのキーワードをプロンプトとして使うだけで "A red fox is jumping on the floor." という文が出てくる可能はあるけれど、ひとたびトレーニングしてしまえば、どういうキーワードで元の文を生成できるのか、実はモデルを設計した当人にもわからない（というか確率なので）というのが、とりわけ Stable Diffusion のような統計力学の原理を応用した拡散モデルの特徴である。よって、ウェブのコンテンツを拡散モデルに「アーカイブ」するという発想は、元のコンテンツを正確に復元するという目的のもとでは悪い冗談にしか聞こえないわけである。

冒頭に戻る