Scribble at 2025-12-05 19:02:20 Last modified: unmodified

添付画像

ようやく SDXL で LoRA を作る configuration が決まってきた。試しに自分の写真を使ってイラスト調の画像を出してみたが、なかなかいい感じで描けている。

ちなみに LoRA のトレーニングには幾つかの「都市伝説」と言ってもいい出鱈目があって、生成 AI について解説しているブログやメディアの多くも、こういう出鱈目を書いていることがある。たとえば、

・学習用の画像は多いほうが良い。

これは、出鱈目とまでは言えないにしても不適切な言い方だ。ボケた解像度の低い画像が何十枚あろうと、決して良質の画像を生成する LoRA はできない。LoRA のウェイトを下げて、ベース・モデルの精細な描写に引っ張ってもらって綺麗な画像を出せるチャンスはあるとしても、SDXL としておよそ安定しているとは言えないガチャになる。つまり、LoRA のウェイトを下げるほど、せっかく学習した特徴量が失われてしまうので、画像として綺麗でも別人になってしまうリスクが高まるのである。現実には、1024 x 1024(ベースモデルに Illustrious 1.1 以降を使うなら、1538 x 1538 でもいい)のサイズで高精細な画像を10枚から15枚ていど用意すれば事足りる。実際、僕が上の画像を出すために用意したのは、つい3時間ほど前に iPhone で自撮りした15枚くらいの写真だ。

それから、これもよくある都市伝説として、

・学習回数(ステップ数)は多いほど良い。

これも、おおむね出鱈目である。というか、僕の経験ではステップ数なんて数百のオーダーでよい。ステップ数を数千のオーダーで設定して、学習用のスクリプトを何時間もかけて実行するようなやりかたは、たいてい過学習(オーバー・フィッティング)を起こしてしまうか、あるいは逆に学習用写真すべてについて共通するような統計的に平均化された処理が過剰にかかって、全く似ても似つかない顔を概念として覚え込んでしまうかのどちらかになる。現実には、iteration が10くらい、epochs が10か20、つまりはステップ数として200から300もあればいいのだ。これが、アニメや漫画のキャラになると、更に少ないステップ数でしっかり学習してくれるし、アニメや漫画のキャラなどは肌の質感やシワや眉毛のようなディテールを覚えなくてもいい場合が多いので、network dimension も 8 ていどで済むことが多い。network dimension が 8 だと、出来上がった LoRA のファイル・サイズは 60 MB くらいになる。なので、Civitai などで配布されている LoRA で何百メガもあるのは、network dimension を無用に高く設定しすぎているか、あるいはキャラと服装の LoRA を合成しているせいでファイル・サイズが多いのだと考えるべきだろう。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る