OpenAIは3月29日(現地時間)、少ない音声サンプルから合成音声を生成できるAIモデル「Voice Engine」について技術的な詳細を発表した。
Voice Engineは入力されたテキストから自然な発話音声を生成できるAIモデル。サンプルとして与えられた人間の声を自然な発音でまねることができ、学習に必要な音声サンプルの長さも15秒程度で済む。
サンプルデータに含まれていない言語の音声も生成可能だが、元の言語のアクセントの癖はそのまま保持される。例えば、フランス語話者の音声サンプルを基に英語の音声を生成すると、フランス語のアクセントをもった英語音声が出力されるといった具合だ。
Voice Engineは2022年後半に開発された技術で、すでに「ext-to-Speech API」や「ChatGPT Voice」といった同社のサービスに活用されているほか、2023年末からは信頼できる一部のパートナーと非公開のテストも実施している。子ども向けの読書支援ツールや音声の自動翻訳、言語障害に苦しむ患者の支援などに活用されているという。
同社は音声合成AIが悪用されるリスクも認識しており、生成された音声の出所を追跡する“電子透かし”や、音声の使用状況の事前監視といった安全対策を実装済み。Voice Engineを試用するパートナーにも、個人や組織になりすます行為の禁止や、音声がAI生成によるものであることを聞き手に開示することを求めるなど、安全性にも配慮した運用方針を採っている。
なお、Voice Engineはあくまでプレビューであり、一般公開の予定はないという。
同社はVoice Engineが音声合成AIがもたらす可能性や課題を社会全体で認識・対応するきっかけとなることも意図していると言い、音声による機密情報(銀行口座など)へのアクセスの段階的な廃止や、AIによる個人の声の使用を保護するポリシーの検討、一般向けのAIリテラシーに関する教育などもあわせて提案している。