画像クレジット:Stephanie Arnett/MITTR | Envato
メタは、音声データと付随するテキストデータを納めたデータセットがなくても、わずかなデータから音声認識・生成可能なAIモデルを構築した。多くの言語に対応した音声アプリの開発に役立つ可能性がある。
メタ(Meta)は1000以上の言語について、音声認識・生成が可能な人工知能(AI)モデルを構築した。対応可能な言語の数はこれまでの10倍となる。この取り組みは、消滅の危機に瀕している数々の言語の保存に向けた重要な一歩であると同社は述べている。
メタは、コード・ホスティング・ サービス「ギットハブ(GitHub)」を通じてモデルを公開した。同社は、モデルをオープンソース化することで、異なる言語を使う開発者が、すべての人が理解できるメッセージングサービスや、あらゆる言語で利用可能な実質現実(VR)システムといった新しい音声アプリケーションを構築できるようになるだろうとしている。
世界には約7000の言語があるが、既存の音声認識モデルでは、これらのうち約100の言語しか包括的にカバーできていない。その理由は、AIモデルは訓練用に大量のラベル付きデータが必要になる場合が多く、そのようなデータは、英語やスペイン語、中国語など少数の言語でしか用意されていないからだ。
メタの研究者らは、同社が2020年に開発した既存のAIモデルを再訓練することで問題を回避した。このモデルは転写などによる大量のラベル付きデータを必要とせず、音声から会話パターンを学習できる。
研究チームは、2つの新しいデータセットでモデルを訓練した。一つは新約聖書の音声録音データとそれに対応する1107言語のテキストデータ(インターネットから取得)、もう1つは3809言語のラベルなしの新約聖書の音声録音データだ。同チームは音声録音データとテキストデータを処理して品質を向上させたうえで、音声録音と付随するテキストが並ぶように設計されたアルゴリズムを実行。次に、新たに並べられたデータで訓練した2つ目のアルゴリズムを使ってこのプロセスを繰り返した。この方法によって研究チームは、付随するテキストがなくても新しい言語をより簡単に学習できるようにアルゴリズムを教育できた。
「モデルが学んだことを利用して、ごくわずかなデータから迅速に音声システムを構築できます」と、プロジェクトに携わったメタの研究者、マイケル・アウリ博士は語る。
「英語に関してはよいデータセットがたくさんありますし、その他いくつかの言語についてもそうです。ですが、例えば話す人が1000人しかいないような言語については、よいデータセットがありません」 。
研究チームによると、彼らが構築したモデルで会話できる言語は1000以上だが、認識できる言語は4000以上だという。
同チームは、このモデルをオープンAI(OpenAI)の「ウィスパー(Whisper)」をはじめとするライバル企業のモデルと比較し、他社の11倍以上の言語をカバーしているにもかかわらず、エラー率は半分だったと主張している。しかし、同チームは、このモデルには依然として特定の単語やフレーズを誤って転写するリスクがあり、それが不正確または潜在的に侮辱的なラベル付けに繋がる可能性があると警告している。さらに、0.7%というわずかな数値ではあるものの、自社の音声認識モデルが他のモデルより偏った単語を生成したことも認める。
研究そのものについては印象的だが、宗教に関するテキストを使用してAIモデルを訓練したことは物議を醸すかもしれない。アフリカ言語の自然言語処理に取り組む機関、マサカーネ(Masakhane)の研究者で、メタのプロジェクトには参加していないクリス・エメズエは、「聖書には、バイアスや誤った表現がたくさんあります」と述べている。