寝不足になるほど面白い　ローカルAIと音声合成をつないだら、キャラが普通にしゃべり始めた

2026年06月08日 07時00分更新

文● 新清士

Gemma 4×Irodori-TTSで実現

　こうした音声チャットアプリは、筆者も数年前に作ってみたことがあるのですが、様々な技術的な制約から、十分に実用的な品質には到達できませんでした。

　まず、キャラクターを高速かつ自然に演じることができる軽量かつ高性能なローカルLLMが存在していませんでした。6月4日に、Googleはオープンモデルの「Gemma 4 12B」をリリースしました。量子化（軽量化）されたバージョンであれば、VRAMが7GBで動作します。それでいて、ロールプレイ能力も備えています。

　もちろん、より大きな「Gemma 4 31B」は高い性能を持っていますが、量子化版でもVRAMを大きく消費するため、導入のハードルは高くなります。Gemma 4にはIT（Instruction Tuned）版が用意されており、これはユーザーの指示に応答しやすく調整されたモデルです。Thinkingに非対応という意味ではなく、Thinkingをオンにすれば深く考えさせることもできます。ただし、AIチャットアプリでは応答速度が重要になるため、Thinkingをオフにして高速に返答させる運用にもメリットがあります。速く応答し、ロールプレイもできるというのは、AIチャットアプリにとって重要な条件です。

　そして、音声生成環境として使ったのは、Aratakoさんが開発しているIrodori-TTSです。2026年2月に公開されたあと、5月12日にv3が公開され、さらに5月31日に最新版の「Irodori-TTS-600M-v3-VoiceDesign」がリリースされました。モデルサイズは600Mで、2.5GB程度のため、8GB～12GB程度で安定的に動作します。

　これまでも、テキスト中に絵文字を入れることで、泣き、笑い、咳、ため息、囁きといったニュアンスを加えてセリフを作り出せるという特徴を持っていました。v3ではさらに強力になり、テキスト＋参照音声＋キャプションで制御できるようになりました。キャプションで、「落ち着いた大人の女性」「泣きそう」「近い距離で囁く」といった説明文で、キャラクターの性格付けや感情表現を誘導できます。

　また、キャプションを使って存在しないキャラクターの声を生成できるだけでなく、ゼロショット音声クローンにも対応しているため、15秒程度の参照音声があれば、その声に似た音声を作ることができます。筆者の声で試してみたものが以下です。以前紹介したAlibabaの「Qwen3-TTS」での同じ条件での音声と比べると、やはりモデルサイズの差なのか、若干劣っている印象はあります（参考：わずか4秒の音声からクローン完成　音声生成AIの実力が想像以上だった）。ただ、演技をさせられるメリットは大きいです。もう一つの作例は、筆者の声の影響度を下げ、演技側の影響を強めた設定のものです。同じリファレンスを使っていても、かなり違った音声が出ています。

　そして、生成速度もQwen3-TTSと比べてかなり速く、PCスペックに依存しますが、生成しようとする音声尺の半分程度の時間で生成できる印象です。