このページの本文へ

音声版「DALL-E」か?

マイクロソフト、AIで3秒間の音声データから真似た音声を再現「VALL-E」を発表

2023年01月11日 09時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

 マイクロソフトは1月5日(現地時間)、3秒間の声のサンプルを使用するだけで、その人の声を真似た音声を合成できる言語モデリングアプローチ「VALL-E」を発表した。

しゃべらせたいテキストと3秒間のお手本音声を入力するだけ

概念図

 「ニューラルコーデック言語モデル」と呼ばれるVALL-Eは、Metaが2022年10月に発表した「EnCodec」というAIを使った音声圧縮技術をベースにしている。

 論文によると、しゃべらせたいテキスト(Text Prompt)と、お手本となる3秒間のサンプル音声データ(Acoustin Prompt)を入力すると、事前にトレーニングされたデータを使って分析し、その声が3秒間のサンプル以外のフレーズを話した場合にどう聞こえるかをAIが予測し、まるでお手本を録音した人がしゃべったかのようにテキストを再生できる。

 トレーニングは、やはりMetaが作成した7000人以上の話者による6万時間を超える英語の音声ライブラリ「LibriLight」を使用して実施されており、サンプル音声がトレーニングデータの音声に近いものであればあるほどよい結果をもたらしてくれるという。

「怒った声」や「電話越しの声」も再現できる

LibriSpeechによるサンプル

 それでは実際に合成された音声を聞いてみよう。マイクロソフトが用意したデモページには、Metaが作成した音声データセット「LibriSpeech」を使ったサンプルデータを聞くことができる。

 一番左の「TEXT」がしゃべらせたいテキスト、その右にある「Speaker Prompt」がお手本となる3秒間の音声だ。この2つを元に生成される音声が一番右の「VALL-E」だ。

 「Ground Truth」は、お手本と同じ話者がそのフレーズを発声した既存の録音、つまり正解となる。「VALL-E」と聴き比べてみると、サンプルによって出来不出来はあるが、声の音色だけではなく、アクセントやスピードなども再現されていることがわかる。

 なお、「Baseline」は従来の音声合成方式による合成例だ。「VALL-E」と比べるとかなり平坦に聞こえる。

多様性のサンプル

 また、生成時に必要なパラメーターを変えることで、トーンやアクセントなどが異なる多様性のあるサンプルを複数生成できる。

音響環境の変化によるサンプル

 さらに、サンプル音声の「音響環境」を再現することも可能。例えばサンプル音声が電話越しに録音された音声だった場合、電話の音響特性や周波数特性が合成された音声にも適用される。

話者の感情によるサンプル

 同じ文章を「怒っている」、「眠い」、「普通」、「楽しい」、「ダルい」といった様々な感情を持ったサンプル音声を使って生成した例。AIは感情まで模倣できるようになったのだ。

犯罪に利用される可能性もあるため公開は微妙

 このように、たった3秒のサンプルデータで驚くべき音声合成精度を持つVALL-Eだが、もちろんまだ進化の余地はある。単純に、手本となるサンプルデータや事前学習データの量を増やすだけでも、よりリアルな音声を合成できるだろう。

 また、GPT-3のような言語生成モデルと組み合わせることで、「自分の声でしゃべるAIボット」を作成することもできるようになるだろう。

 とは言え、現状利用できるのは英語のみ、多言語に対応するためには英語以外の学習用データセットが充実する必要があるだろう。

 現時点でVALL-Eは一般公開されていない。ディープフェイク動画などと組み合わせることでなりすまし詐欺など犯罪に利用される可能性が高いからだろう。

 このような倫理的問題に関してマイクロソフトは、「実用化の際にはサンプルデータを提供する話者の同意を得る仕組み、合成されたデータを検出するシステムなどのコンポーネントを提供する必要がある」と声明を出している。

 少なくともこの準備が整うまでは一般公開されることはないだろう。

■関連サイト

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

1
【Amazon.co.jp限定】HP ノートパソコン 15-fd 15.6インチ インテル Core 5 120U メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載 カメラシャッター 指紋認証 薄型 Copilotキー搭載 ナチュラルシルバー (BJ0M5PA-AAAI)
【Amazon.co.jp限定】HP ノートパソコン 15-fd 15.6インチ インテル Core 5 120U メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載 カメラシャッター 指紋認証 薄型 Copilotキー搭載 ナチュラルシルバー (BJ0M5PA-AAAI)
¥181,469
2
Apple 2026 MacBook Neo A18 Proチップ搭載13インチノートブック:AIとApple Intelligenceのために設計、Liquid Retinaディスプレイ、8GBユニファイドメモリ、256GB SSDストレージ、1080p FaceTime HDカメラ - シトラス
Apple 2026 MacBook Neo A18 Proチップ搭載13インチノートブック:AIとApple Intelligenceのために設計、Liquid Retinaディスプレイ、8GBユニファイドメモリ、256GB SSDストレージ、1080p FaceTime HDカメラ - シトラス
¥95,768
3
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - ミッドナイト
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - ミッドナイト
¥177,333
4
【Amazon.co.jp限定】Lenovo Chromebook クロームブック Duet 11 10.95インチ MediaTek Kompanio 838 プロセッサー​搭載 メモリ8GB eMMC 128GB 重量1.0kg 83HH000TJP パソコン
【Amazon.co.jp限定】Lenovo Chromebook クロームブック Duet 11 10.95インチ MediaTek Kompanio 838 プロセッサー​搭載 メモリ8GB eMMC 128GB 重量1.0kg 83HH000TJP パソコン
¥69,300
5
Lenovo ノートパソコン パソコン IdeaPad Slim 3 15.3インチ AMD Ryzen™ 5 7535HS メモリ16GB SSD512GB MS Office搭載 Windows11 バッテリー駆動17.4時間 重量1.59kg ルナグレー 83K700HBJP ノートPC
Lenovo ノートパソコン パソコン IdeaPad Slim 3 15.3インチ AMD Ryzen™ 5 7535HS メモリ16GB SSD512GB MS Office搭載 Windows11 バッテリー駆動17.4時間 重量1.59kg ルナグレー 83K700HBJP ノートPC
¥153,780

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥2,386
2
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥740
3
CIO フラットスパイラルケーブル CtoC 1m (Type-C/USB-C) PD 急速充電 平型 磁石 マグネット吸着 まとまる 充電ケーブル PD 240W データ転送 480Mbps (ライトブラック, 1m)
CIO フラットスパイラルケーブル CtoC 1m (Type-C/USB-C) PD 急速充電 平型 磁石 マグネット吸着 まとまる 充電ケーブル PD 240W データ転送 480Mbps (ライトブラック, 1m)
¥1,980
4
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
¥1,899
5
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
¥7,047
6
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
7
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,080
8
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
¥1,599
9
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
¥1,299
10
KIOXIA(キオクシア)【日本製】SDカード 32GB SDHC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA032G
KIOXIA(キオクシア)【日本製】SDカード 32GB SDHC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA032G
¥1,381

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン