Scribble at 2024-11-09 09:04:17 Last modified: 2024-11-09 09:09:11

添付画像 — LoRA vs Full Fine-tuning: An Illusion of Equivalence

つい数日前にファインチューニングにはコストがかかるという話を書いたばかりだが、この論文は画像生成 AI でも使われる LoRA と fine-tuning とを比較したものだ。LoRA は既存の拡散モデルを使って行われる計算効率を劇的に高める手法であるため、初期のデータをあるていどは短絡化ことが目的なのだから、結果にも影響があるのは当然であり、それがそもそも LoRA を使う目的だ。ベースになるモデルだけだと一定の画像（端的に人物で言えば特定の顔つきの人）しか出てこないが LoRA によって別の人物へ簡単に修正できるというわけだ。これは既に僕自身の写真を使って作成した LoRA（<lora:philsci:075>）で実例をご紹介したことがある。

LoRA が fine-tuning に比べて一定のリスクをもつことは上の論文でも分かるが、もちろん僕らは拡散モデル（巨大な基本モデル）をトレーニングしなおす時間やお金はかけられない（Stable Diffusion Web UI のようなツールだと、複数のモデル・データを組み合わせる「マージ」はできるが）。なので、LoRA の限界なりリスクに対応できる手法があれば望ましい。Lycos とか他のフォーマットはどうなんだろう。

冒頭に戻る