対面でのやり取りにビデオ通話を使う人が多くなった現在、接続が途切れ途切れになり、以前にも増してイライラさせられるようになった。そこで、個々の話者の話し方を模倣して発言のスニペット(断片)を生成し、小さな隙間を埋めることで、途切れをスムーズにしてくれる人工知能(AI)が登場した。グーグルのチームが開発したこのテクノロジーは現在、同社のビデオ通話アプリ「デュオ(Duo)」で使われている。
オンライン通話中、私たちの声はたくさんの小さな断片に切り刻まれ、パケットと呼ばれるデータブロックの形でインターネット上を通り抜けていく。パケットは多くの場合、相手方にごちゃごちゃになって到着するので、ソフトウェアでそれらを並べ替える必要がある。しかし、まったく届かないパケットもあり、それが原因で会話に不具合や途切れが生じる。これは通話状態がもっともよい時でさえ起こる。グーグルによると、デュオでの通話の99%で、ごちゃごちゃのパケットや失われたパケットの処理をする必要があるという。そうした通話の10分の1で、音声の8%以上が失われてしまう。
問題を解決するためにグーグルのチームは、同社のAI子会社であるディープマインド(DeepMind)が開発したテキストからリアルなスピーチを生成できるニューラル・ネットワークを発展させた。「ウェーブネットEQ(WaveNetEQ)」と呼ばれるこの新たなニューラル・ネットワークは、48の異なる言語それぞれで人間の声を100個録音した大規模なデータセットで訓練。訓練は、スピーチの短い部分を、人々の一般的な話し方のパターンに基づいてオートコンプリート(自動補完)できるようになるまで実施された。デュオは端末で通話を暗号化・復号化するため、ウェーブネットEQによる処理はクラウドではなくデバイス上で実行される。通話中、ウェーブネットEQは話者の声の特徴を学習し、発話スタイルと話している内容の両方に合った音声のスニペットを生成できるようにする。パケットが届かなかった場合には、その個所にAIで生成した音声が挿入される仕組み。
現時点では、ウェーブネットEQは単語やフレーズではなく、音節のみしか生成できない。しかし、グーグルがオンラインで公開した短いサンプルから判断すると、結果はかなり本物そっくりになりそうだ。1つの例では、ウェーブネットEQは男性の話者を正確に模倣した声で「トラブル(trouble)」という単語の第2音節を置き換えている。