Livetoon、最高クラス（最高精度・最速）の音声合成モデルを開発

2025.07.15 12:46

PR TIMES

株式会社Livetoon
日本語音声合成の新スタンダード ― 感情とリアルタイム性を極める音声AI

AIキャラクターとの対話サービス「kaiwa」を開発する株式会社Livetoon（本社：東京都中央区、代表取締役：木下恭佑）は、AIとの自然な会話を実現するため独自開発を進めている次世代TTS（Text-to-Speech）モデルにおいて、現行最高峰モデルを超える読み上げ精度と処理速度を達成したことをお知らせします

本モデル（以下、Livetoon TTS）は、テキスト解析から音響モデル・ボコーダに至るまで、全工程をフルスクラッチで実装、学習しております。日本語に最適化したアーキテクチャと軽量構造により、業界標準を大きく超える品質と低遅延を実現しています。

■ 120ミリ秒の超低遅延 ― “リアルタイム水準”を実現
推論速度の検証では、NVIDIA T4（VRAM 16GB）環境で、短文（20文字）で120ミリ秒、長文（200文字）でも760ミリ秒の読み上げを記録し、短文においては他社モデルの約2倍を達成しました。

100 ミリ秒台の遅延は「人の会話と区別できない体感速度」とされており、当社エンジンはその壁を突破しました。

■ クオリティ：感情が宿る、人間を超える「声」
Livetoonが目指したのは、単なるテキストの読み上げではありません。言葉に込められた感情、ニュアンス、そして「魂」を吹き込むこと。その結果、私たちは現行の最高峰モデルさえも凌駕する、圧倒的な表現力を獲得しました。

特に日本語特有の繊細なイントネーション（抑揚）の再現性は、他社の追随を許しません。喜びで弾む声、真剣な眼差しが目に浮かぶような口調、そして言葉と言葉の間に生まれる絶妙な「間」。これら全てを完璧にコントロールすることで、聞く人の心を動かす「本物の声」お届けします。

さらに本モデルではわずか15分の音声データがあれば、その人に忠実なクローンボイスを最短1分で生成することが可能です。短時間・高精度な再現性により、個人やIPキャラクターの音声展開を迅速に実現できる点も、大きな技術的優位性となっています。

■ 精度でも国内トップラス：日本語の「壁」を打ち破る圧倒的な正解率
日本語における音声合成の最大の壁、それは「漢字の読み」です。

例えば「生年月日」を「しょうねんがっぴ」と読んでしまったり、大人気作品「鬼滅の刃」のキャラクター名を正しく発音できなかったり──。一般的な辞書に載っていない固有名詞や特殊な読み方は私たちの想像を超える数、存在します。これこそが多くの音声合成エンジンが不自然な読み間違いを起こす最大の原因となってきました。

この“日本語の壁”に対し、Livetoonは真正面から向き合いました。

検証として今回開発されたLivetoon TTSと最新の高性能モデルを対象に、読み上げ成功率の比較検証を実施。（※読み上げ文書については公平のため、ChatGPTの出力を参考に使用しました）

- エンターテイメント領域： +26.9pt（64.6% vs 91.5%）
- ビジネス領域： +32.5pt（57.5% vs 90.0%）
- 総合話題カテゴリ： +9.1pt（81.8% vs 90.9%）

Livetoon TTSは全ての領域で他を圧倒。
特に、未知の固有名詞が頻出するエンターテイメント領域やビジネス領域で、他を全く寄せ付けないスコアを叩き出しています。

複雑な人名や地名、ネットで生まれたばかりのスラング、そして創作物ならではの難読漢字まで。どんなテキストが入力されても、常に90%を超える水準で安定して正しい読みを提供します。

※今回の比較検証では行っておりませんが、読み上げ辞書の追加についても対応が可能です。

■ フルスクラッチだからこそ到達できた、圧倒的性能
この「超低遅延」「超高品質」「超高精度」という、本来トレードオフの関係にある3つの要素を最高水準で両立できたのは、既存技術の組み合わせではない、ゼロからのフルスクラッチ開発にこだわったからです。

テキスト解析から音響モデル、ボコーダーに至るまで、全てのコンポーネントを日本語に完全特化させ、それぞれのパーツで最高水準を達成することで今回のモデル完成にこぎつけました。このアプローチこそが、他社には模倣不可能な圧倒的性能の源泉です。