Scribble at 2026-01-30 08:07:19 Last modified: 2026-01-30 08:11:33
生成 AI を動かしているメインの自宅マシンから ComfyUI と A1111 Stable Diffusion Web UI を外したのだが、ローカル環境で Ace-Step のような音楽の生成はやらないとしても、TTS (text-to-speech) はやりたいので、やはりフロント・エンドを入れなくてはいけない。
いまは会社の教材としてポッドキャスト風の音声を Dropbox に置いて配信していて、これを Premiere Pro で編集するためのナレーション素材は、VOICEVOX というサービスのアプリケーションを利用している。これはこれでイントネーションなどの細かい調整ができて良いのだが、大量の文章を音声化(つまり Amazon Audible 的なオーディオ・ソース)するには自力でフロントエンドを用意するか、エンジンなどは GitHub で公開されているからスクリプトでデータを送る必要があるので、そこは大量の処理を自動でこなせる TTS の生成 AI に期待したいわけである。
そういう中では、上に紹介したアプリケーションは、対応しているモデルが多くてなかなか良さそうだ。QWEN のような今年に入って出たばかりのモデルには、これから対応するかもしれないが、ひとまずオープンソースで知られている Parler-TTS などはサポートしているようだ。それから、GPT-SoVITS のように自分の(あるいは他の人の)声を素材としてトレーニングできるモデルも、独自のフロントエンドがリリースされているので、もしモデルを決め打ちするなら考慮したい。ちなみに GPT-SoVITS は日本語にも対応している。