Scribble at 2024-11-09 09:04:17 Last modified: 2024-11-09 09:09:11
この論文は、事前学習済み大規模言語モデルの微調整における、フルファインチューニングとローランク適応(LoRA)という2つの手法の違いについて考察しています。研究者らは、LoRAがフルファインチューニングと同様の性能を達成しながらも、スペクトル特性や汎化性能において明確な差異があることを明らかにしました。特に、LoRAでは「侵入次元」と呼ばれる、事前学習済みモデルには存在しない固有ベクトルが出現することがあります。侵入次元は、LoRAモデルが事前学習データ分布を忘却しやすくなり、連続学習におけるロバスト性を低下させる原因となることが示されました。論文では、侵入次元が発生する理由を数学的に考察するとともに、侵入次元の影響を最小限に抑えるための手法についても検討しています。 [NotebookLM の要約]
つい数日前にファインチューニングにはコストがかかるという話を書いたばかりだが、この論文は画像生成 AI でも使われる LoRA と fine-tuning とを比較したものだ。LoRA は既存の拡散モデルを使って行われる計算効率を劇的に高める手法であるため、初期のデータをあるていどは短絡化ことが目的なのだから、結果にも影響があるのは当然であり、それがそもそも LoRA を使う目的だ。ベースになるモデルだけだと一定の画像(端的に人物で言えば特定の顔つきの人)しか出てこないが LoRA によって別の人物へ簡単に修正できるというわけだ。これは既に僕自身の写真を使って作成した LoRA(<lora:philsci:075>)で実例をご紹介したことがある。
LoRA が fine-tuning に比べて一定のリスクをもつことは上の論文でも分かるが、もちろん僕らは拡散モデル(巨大な基本モデル)をトレーニングしなおす時間やお金はかけられない(Stable Diffusion Web UI のようなツールだと、複数のモデル・データを組み合わせる「マージ」はできるが)。なので、LoRA の限界なりリスクに対応できる手法があれば望ましい。Lycos とか他のフォーマットはどうなんだろう。