Scribble at 2025-02-26 08:50:57 Last modified: 2025-02-26 09:35:28
Suno AI というサウンドの生成 AI サービスを使っていて興味が出てきたので、クレジットの制限がないローカルでの生成はできないものかと探してみて、幾つか見つけた。その中でも複数のモデルをサポートしている TTS Generation WebUI / Harmonica をインストールしているところだ・・・これが、もうインストールのバッチ・ファイルを起動してから30分近くも経過しているのに、いまだに細々としたライブラリの追加作業が続いている。
こうして見ていると、生成 AI を動かすために必要な部品というのは、色々な組み合わせがあるのだなと思う。
で、ようやくセットアップも完了したので、試しに幾つか生成している。Suno AI に比べると音質に問題があるような気もするので、これはモデルを変更すればいいだろう。ひとまず、Facebook Research がリリースした MusicGen の "musicgen-stereo-melody" タイプを使って、instrumental なサウンドを出しているところだ。なお、セットアップが終わると勝手にブラウザの UI が起動するけれど、Gradio 版と React 版が二つとも同時に起動してしまうので、これは設定かなにかで調整する必要がある。
Web UI の使い方は凄く簡単で、プロンプト、モデル、音のタイプ(ステレオ、メロディ)、それから長さ(duration)を選ぶくらいだ。僕のマシンでは、180秒(3分)の曲を作るのに10分くらいかかっていたので、iteration(連続で同じ条件で何曲つくるか)も1でいいだろう。