Gemma 4×Irodori-TTSで実現
こうした音声チャットアプリは、筆者も数年前に作ってみたことがあるのですが、様々な技術的な制約から、十分に実用的な品質には到達できませんでした。
まず、キャラクターを高速かつ自然に演じることができる軽量かつ高性能なローカルLLMが存在していませんでした。6月4日に、Googleはオープンモデルの「Gemma 4 12B」をリリースしました。量子化(軽量化)されたバージョンであれば、VRAMが7GBで動作します。それでいて、ロールプレイ能力も備えています。
もちろん、4月にリリースされた「31B」が最高の性能を持っているのですが、量子化版でもVRAMを18GB要求するため、導入のハードルは高いものでした。また、それらは「Instruct」モデルとして提供されており、深く思考するThinkingには対応していないものの、思考速度が速いというメリットがあります。応答速度が速く、ロールプレイができるというのは、AIチャットアプリにとって重要な条件です。
そして、音声生成環境として使ったのは、Aratakoさんが開発しているIrodori-TTSです。2026年2月に公開されたあと、5月12日にv3が公開され、さらに5月31日に最新版の「Irodori-TTS-600M-v3-VoiceDesign」がリリースされました。モデルサイズは600Mで、2.5GB程度のため、8GB~12GB程度で安定的に動作します。
これまでも、テキスト中に絵文字を入れることで、泣き、笑い、咳、ため息、囁きといったニュアンスを加えてセリフを作り出せるという特徴を持っていました。v3ではさらに強力になり、テキスト+参照音声+キャプションで制御できるようになりました。キャプションで、「落ち着いた大人の女性」「泣きそう」「近い距離で囁く」といった説明文で、キャラクターの性格付けや感情表現を誘導できます。
また、キャプションを使って存在しないキャラクターの声を生成できるだけでなく、ゼロショット音声クローンにも対応しているため、15秒程度の参照音声があれば、その声に似た音声を作ることができます。筆者の声で試してみたものが以下です。以前紹介したAlibabaの「Qwen3-TTS」での同じ条件での音声と比べると、やはりモデルサイズの差なのか、若干劣っている印象はあります(参考:わずか4秒の音声からクローン完成 音声生成AIの実力が想像以上だった)。ただ、演技をさせられるメリットは大きいです。もう一つの作例は、筆者の声の影響度を下げ、演技側の影響を強めた設定のものです。同じリファレンスを使っていても、かなり違った音声が出ています。
そして、生成速度もQwen3-TTSと比べてかなり速く、PCスペックに依存しますが、生成しようとする音声尺の半分程度の時間で生成できる印象です。
△筆者の声を参考音声に使った声。前半15秒がIrodori-TTS v3で、後半15秒がQwen3-TTS
△筆者の声の参考度を低めに生成したもの
一方で、明確な弱点もあります。
日本語専用のため、テキストに英語が交じると、おかしな読み上げになってしまいます。また、複雑な漢字の読み間違いも、それなりに起きます。対策としてはひらがなに開いて、読み間違えないようにする対策が必要です。
秒数制限もあり、30秒が上限に設定されています。テキスト全体の量が30秒を超えるような文章では、破綻したおかしな読み上げしか生成されません。失敗を避けるためには、実質20秒程度を上限と見ておくほうが安全で、長文の場合は、短文に分割して生成する必要があります。
また、学習データの影響なのか、生成できる声が可愛らしい萌え系の女性キャラに偏りやすい印象もあります。ただ、これは強みでもあり、なかなか他のTTSでは表現できないASMR系の音声を手軽に出せることもあって、人気を得ている理由にもなっています。
そして、これらのLLMとTTSを組み合わせることで、かなり応答の速いAIチャット環境を作り出すことができました。
本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
-
第159回
AI
AIを使える人と使えない人で、とんでもない差が出ると実感した理由 -
第158回
AI
SDXLの次はこれ? アニメ特化のローカル画像生成AI、驚きの実力 -
第157回
AI
AIだけでゲームは作れるのか? Codexに7本作らせて見えた実力と限界 -
第156回
AI
ChatGPTの画像生成AIは本当に最強か Nano Bananaと比べて見えた“弱点” -
第155回
AI
非エンジニアが数百万円級のツールを開発 画像&動画生成AIツールがゼロから作れた話 -
第154回
AI
ChatGPTの画像生成AIが強すぎる AI画像が世界中に氾濫する時代へ -
第153回
AI
ChatGPTの画像生成AIが「Nano Banana」超え? 漫画や動画風カットが実用レベルに -
第152回
AI
Seedance 2.0×AIエージェントでAI動画が激変 “AI脚本家”や“AI絵コンテ作家”との共同作業で、アニメ制作が身近に -
第151回
AI
画像・動画生成AIの常識が変わる、Claude Codeに全部やらせる方法論 -
第150回
AI
無料でここまで? 動画生成AI「LTX-2.3」はWan2.2の牙城を崩すか - この連載の一覧へ





