Scribble at 2025-02-26 08:50:57 Last modified: 2025-02-26 09:35:28

添付画像

TTS Generation WebUI / Harmonica

Suno AI というサウンドの生成 AI サービスを使っていて興味が出てきたので、クレジットの制限がないローカルでの生成はできないものかと探してみて、幾つか見つけた。その中でも複数のモデルをサポートしている TTS Generation WebUI / Harmonica をインストールしているところだ・・・これが、もうインストールのバッチ・ファイルを起動してから30分近くも経過しているのに、いまだに細々としたライブラリの追加作業が続いている。

こうして見ていると、生成 AI を動かすために必要な部品というのは、色々な組み合わせがあるのだなと思う。

で、ようやくセットアップも完了したので、試しに幾つか生成している。Suno AI に比べると音質に問題があるような気もするので、これはモデルを変更すればいいだろう。ひとまず、Facebook Research がリリースした MusicGen の "musicgen-stereo-melody" タイプを使って、instrumental なサウンドを出しているところだ。なお、セットアップが終わると勝手にブラウザの UI が起動するけれど、Gradio 版と React 版が二つとも同時に起動してしまうので、これは設定かなにかで調整する必要がある。

Web UI の使い方は凄く簡単で、プロンプト、モデル、音のタイプ(ステレオ、メロディ)、それから長さ(duration)を選ぶくらいだ。僕のマシンでは、180秒(3分)の曲を作るのに10分くらいかかっていたので、iteration(連続で同じ条件で何曲つくるか)も1でいいだろう。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る