このページの本文へ

Youtubeの字幕生成に活用

グーグル、100以上の言語に対応した音声AIを公開

2023年03月09日 12時50分更新

文● 田口和裕

　グーグルは3月6日（現地時間）、300を超える言語にまたがる1200万時間の音声データと280億のテキストデータで訓練された自動音声認識モデル「Universal Speech Model（USM）」を発表、YouTubeの字幕生成に活用されるほか、研究者向けにAPIも公開されている。

　USMは英語や北京語など広く話されている言語だけでなく、アムハラ語（エチオピア）、セブアノ語（フィリピン）、アッサム語（インド北東部）、アゼルバイジャン語など比較的話者の少ない言語についても自動音声認識（ASR）が可能となっている。

現在のASRにおける課題

　ASR開発においては、音声データとそれに対応するラベルと呼ばれるテキストデータを対にした大量のデータセットを用いて学習させる「教師あり学習」と呼ばれる機械学習の手法が主流となっている。

　だが、英語や中国語などサンプルとなるソースの多い言語と異なり、話者の少ない言語はそもそもサンプルとなる音声データが少ないうえに、手作業でラベルを付加（ラベリング）する必要もあるため時間とコストがかかるという課題がある。

　グーグルは2021年11月に公開した記事「3 ways AI is scaling helpful technologies worldwide」の中で、世界で話されている上位1000言語をサポートする機械学習（ML）モデルを構築する「1000 Languages Initiative」という目標を発表している。

　だが、これらの言語の中には話者数が比較的少ないものも多く含まれており、利用可能なデータが限られている言語をどのようにサポートするかが中心的な課題となっていた。

　また、言語のカバー範囲と品質を拡大する一方で、マシンリソースとの兼ねあいから計算効率が高い方法でモデルを改善する必要もあるため、学習アルゴリズムが柔軟で効率的かつ一般化可能であることも重要となるという。

　

3ステップからなる「微調整を伴う自己教師あり学習」を採用

　そこでUSMでは「教師あり学習」に代わり主に「自己教師あり学習」という手法を採用している。

　「自己教師あり学習」は音声に対応したラベルが必要な「教師あり学習」と違い、データ自身から独自のラベルを機械的に作り、それをもとにタスクをするため、ラベル付きデータセットを必要としないという特徴がある。

　USMはラベルのない大規模な多言語データセットを利用して「自己教師あり学習」による事前学習を行ない、その後に少量のラベル付きデータセットで微調整を行うことで、十分に普及していない言語を認識できることを実証した。この方式は「微調整を伴う自己教師あり学習」と表現されている。

　「微調整を伴う自己教師あり学習」は3つのステップで構成されている。

　第1ステップでは、実績のある「BEST-RQ」モデルを使用して、300以上の言語を含むラベルのない大量の音声データから「自己教師あり学習」を行なう。作業的にはこのステップが全体の80％を占める。

　ラベル付きの音声データがある場合は、第2ステップで「教師あり学習」を用い追加の知識を取り込む。なお、このステップは省略できる。

　そして第3ステップでは実際に使用する環境（ここではYouTube字幕）にあわせた少量のラベル付きデータを用いて、微調整をする。

誤答率はOpenAIのWhisperを下回る結果に

　上記のステップを経てトレーニングされたUSMを、Youtubeの字幕データ（73言語）でテストしたところ、73言語の平均単語誤答率（WER）30％以下を達成したという。

　また、アメリカ英語に限れば自社のこれまでの記録よりも6％低い誤答率を、さらにOpenAIが提供する40万時間以上のラベル付きデータで学習された「Whisper」と比較して平均で32.7%相対的にWERが低いという結果を示した。

　グーグルは「世界の情報を整理し、誰でもアクセスできるようにする」というミッションを掲げており、1000言語という目標に到達するための基盤技術としてUSMは位置付けられている。

■関連サイト

ツイートする

カテゴリートップへ

トピックス
Google、発話障がいに対応する音声認識研究「Project Euphonia」に日本語を新たに追加
トピックス
グーグルがAIで解決しようとしている7つの社会問題
スタートアップ
音声認識×生成AI。会話から議事録やマニュアルを生成する新サービス

注目ニュース

ASCII倶楽部

ASCII倶楽部とは

お知らせ

本日の即買いグッズ/アスキーストア'sセレクション

USB Type-C直挿しのミニマムサイズのApple Watch充電器「hellomaco GO 2」が10％オフ

ピックアップ

sponsored

ゲームのフレームレート爆上げが狙える！ CrucialのDDR5-6000メモリー「Pro Overclocking」を使わぬ手はなし！
sponsored
eスポーツ大会で採用される24インチクラスの新モデル

180Hzで3万円切りの即買いモデル、スピーカー内蔵のゲーミングディスプレー「G255PF E2」レビュー
sponsored
新たな敵は地中から現れる！

さらなる刺客（シカク）が四角い地球を襲う！5月23日発売『デジボク地球防衛軍２（略）』の魅力をチェック
sponsored
JN-MD-OLED156UHDR-Tをレビュー

15.6型4K有機ELのタッチ対応モバイルディスプレーと16型IPSのWQXGAモデル、どちらを買うべきか
sponsored
大阪・泉州産のスウェット生地を採用した「AKRacing by BEAMS DESIGN モデル」

スウェット生地のチェアってどう？編集部員何人かに座った感想を聞いてみた
sponsored
セブンアールジャパンの西川氏とASRockの原口氏にコダワリを聞いてきた

パソコンショップSEVENとASRockのコダワリが炸裂！ Threadripper PRO 7995WX搭載BTOPC
sponsored
従来よりもさらにコスパよくゲーミングPCを組みたい方へ

ゲーミングマザーボード「GAMING PLUS」シリーズ完全解説＆自作のオススメ構成例も紹介
sponsored

BaaS普及を追求し続けるGMOあおぞらネット銀行と、ARIのAWS導入支援cnarisに迫る
sponsored
強化ガラス製マウスパッド「ROG Moonstone」など気になるデバイスもまとめて試す！

静音性重視の独自スイッチ“ROG NX Snow”がイイ！「ROG Strix Scope II 96 Wireless」をレビュー
sponsored
LEVEL∞のゲーミングデスクトップ「LEVEL-M7A6-R77-TEX」を検証

20万円以下でこの性能は高コスパだぞ！手頃でゲームを快適に遊ぶBTOPCがほしいならコレ
sponsored
ファーウェイの高性能スマートウォッチにアップデートでゴルフ関連機能が追加！

本格ゴルフウォッチの機能が無料で追加!? 「HUAWEI WATCH GT 4」でゴルフのラウンドが断然楽しくなる！
sponsored

イラスト感覚で光が“描ける”　パナソニックのマイクロLEDを活用した次世代照明がすごい
sponsored
Core i7-14700KF搭載「LEVEL-R779-LC147KF-TTX」をチェック

性能・コスパで考える、超快適ゲーミングに最適なRTX 4070 SUPERのBTOゲーミングPCがコチラ！
sponsored
JN-PCY238FHDR180-Hシリーズをレビュー

色鮮やかな180Hz駆動ディスプレーが約2万円台！ゲーム環境にパステルカラーはいかが？
sponsored
アプリの乱立、情報システム部の負荷増、セキュリティインシデントを防ぐ

kintoneのガバナンスは全社展開でなぜ必要か？　導入実績豊富なコムチュアに聞いた
sponsored
「Wi-Fiモデル」で3万円台、「Wi-Fi＋LTEモデル」でも４万円台っ！

⼦供から⼤⼈にシニアも買ってスグに使える＜Lenovo Tab B11＞は王道タブレットだった！
sponsored

ファーウェイ製スマートウォッチを超活用する技紹介！公式アプリ「HUAWEI Health」の便利機能おさらい！
sponsored
「レッツノートは良いけど高い」は本当？ TCO（総所有コスト）の視点で細かく考える

情シス部門への調査で探る、ビジネスPC選びで見落としがちな「リスクと損失」とは
sponsored

17.3型の大画面が正義のノートPC！ Core i7＆RTX 2050搭載で在宅ワークもエンタメも大満足だ！
sponsored
JN-MD-IPS16WQXGARをレビュー

2560×1600ドットの16型モバイルディスプレー、家使いの二刀流もいけて3万円強は最高

アスキーストア's 人気ランキングベスト5

Tweets by asciijpeditors