このページの本文へ

前へ 1 2 3 4 5 次へ

新清士の「メタバース・プレゼンス」 第160回

寝不足になるほど面白い ローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた

2026年06月08日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

 日本語に特化して開発されているTTSモデル(Text-to-Speech、テキストから音声)の「Irodori-TTS v3」が話題になっています。最近、様々なTTSが登場しているのですが、アナウンサー的な話し方のTTSが多いなか、このモデルは、より幅広い感情表現ができ、演技までできるうえに、生成速度が速いという特徴があります。今回は、グーグルのオープンモデルLLMである「Gemma 4」を組み合わせて、AIとのチャットアプリを開発してみました。ローカルLLMと高速TTSを組み合わせれば、キャラクターAIが実用的な速度でしゃべり始める段階に入っています。

PCローカルで音声チャットアプリができた

 また、寝不足になりました。今回の原因は、Irodori-TTS v3を使ったチャットソフトの開発です。「Rinon Voice Lab」と名付けたこのアプリでは、AIのキャラクターと、待ち時間がほとんどない状態で、ほぼシームレスにやり取りができ、AIの返答は音声で返ってきます。発話ごとに感情表現もされるため、自然な発話になっています。何よりも重要なのが、これらがローカルPC上の技術の組み合わせで実現できているということです。

「Rinon Voice Lab」の実際の画面。この環境は筆者のGitHubにて公開中

△「Rinon Voice Lab」を使って実際にチャットをしている様子

前へ 1 2 3 4 5 次へ

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
ピックアップ