Scribble at 2026-04-17 14:35:50 Last modified: 2026-04-17 14:40:15

添付画像

Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration

スタンフォード大学と ByteDance から "Spectrum" という技術が公表され、さっそく Forge Neo にビルト・インの拡張機能として追加されたようだ。# git pull で簡単にアップデートできるから、いま試しているところだ。

Diffusion モデルの短所として指摘されるのが、推論速度の所要時間だ。多数の反復ステップが必要となり、僕が使っている LCM サンプラーを使う高速な拡散モデルでも6ステップくらいは反復しないと結果が良くない。LCM など高速化に対応していない場合は、おおよそ 20~30 ステップくらいは必要なので、1枚あたり数十秒ほどかかってしまう。既存の高速化手法の多くは局所近似に依存していて、ステップ数を減らしてしまうと誤差が急増して画質が劣化するからだ。Diffusion モデルで画像を生成するときのプロセスが、ノイズ状態からの復元であることを知っていれば、その手順を手抜きすると結果が悪くなるという説明をすれば、おおよその印象として理解できると思う。そこで、長距離の特徴量の予測を高精度に行う技術が提案され、通常のプロセスと比べて画質への影響が可能な限りで少なくなったまま、FLUX.1 で最大4倍の高速化が実証されたという。僕が使っている SDXL (Illustrious) や FLUX.2 Klein でも一定の高速化が期待できるということのようだ。

実際に試すと、なるほど、アップデートするまでは同じ設定で1分間に最大で5枚の生成スピードだったのが、いまでは最大で7枚の生成スピードになっている。これは Illustrious(SDXL)の "Nova Asian XL" というモデルを使っていて、本来なら LCM のような高速化が使えないのだが、"DMD2" という他の手法を採用した高速化を実現する LoRA を使っているおかげで、もともと4ステップで画像を生成できる。それが、更に高速化されたことになる。

ただし、トレード・オフはある。高速化を利用すると CFG スケールを1にする必要があって、CFG スケールを1にすると、実はネガティブ・プロンプトが無視される仕様なのだ。よって、生成される画像の描写が暴れやすくなったり、ノイズのまま出てきたり、スタイルがめちゃくちゃになって破綻したりするリスクが増えるのだ。これは、できるだけ通常のプロンプトを組み立てるときに、モデルが解釈(特徴量の計算)を混乱させないように、あいまいだったり矛盾するキーワード(タグ)を使わないよう慎重にする必要がある。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る