メタは5月22日、複数の音声言語を識別可能な大規模多言語音声 (MMS) モデルを発表した。
同モデルはこれまでの同種の技術の40倍となる、4000以上の音声言語の識別に対応。テキストの読み上げや音声からテキストへの変換も、1100以上の言語で利用可能だ。
開発にあたっては、多数の言語に翻訳されている聖書などの宗教書が活用されている。
同社は1100以上の言語で新約聖書の朗読データセットを作成することで、1言語あたり平均32時間分のデータを取得。さらにキリスト教の他の宗教朗読データなども活用することで、対応言語を4000以上に拡大した。
男性の朗読データが多かったが、完成したMMSは、男性の声でも女性の声でも同等に反応するという。
モデルとコードはオープンソースで提供される。
メタは将来的な課題として、既存の技術では処理が難しい方言にも挑戦していきたいとしている。