このページの本文へ

グーグル、AI生成動画に合わせて音声やBGMを作る技術を発表

2024年06月20日 09時15分更新

文● 田口和裕

　Google DeepMindは6月17日、動画のピクセルデータから音声を自動生成する技術「Video-to-Audio（V2A）」を発表した。この技術により無音の生成AI動画に自然な音声、音楽、効果音、セリフを追加することが可能になる。

動画の内容を直接解析して音声を生成

　V2Aは動画の内容（ピクセルデータ）を直接解析し、動きやタイミングに合わせて適切な音声をリアルタイムで自然に同期させることが可能だ。

　プロンプトは「Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete（シネマティック、スリラー、ホラー映画、音楽、緊張感、アンビエンス、コンクリートの足音）」

　プロンプトは「A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd（照明と歓声に包まれたコンサートのステージに立つドラマー）」

　どちらも動画はグーグルの動画生成AIモデル「Veo」で作成され、そこにV2Aが動画の内容にぴったりなBGMや効果音を加えている。

動画＋ポジティブ／ネガティブプロンプトから音声を生成

　V2Aモデルは高品質な音声を生成し、特定の音を発生させる能力を得るため、「音声の詳細な説明が付与されたAI生成のアノテーション」「発話対話の書き起こし」などの追加情報を付加した動画、音声データでトレーニングされている。

　動画と（ポジティブ／ネガティブ）プロンプトを入力すると、モデルはそれらを圧縮された表現にエンコードし、その後拡散（Diffusion）モデルが動画情報とプロンプトに導かれ、ランダムなノイズから徐々にオーディオを生成していく。最後に、オーディオ出力がデコードされオーディオ波形に変換された上でビデオデータと組み合わされる。

リップシンクは動画生成モデル次第

　ただし現時点ではいくつかの問題点が明らかになっている。

　オーディオ出力の品質はビデオ入力の品質に依存するため、入力する動画の質が悪いとオーディオ品質が著しく低下することがあるという。

　また、セリフがある動画の場合、トランスクリプト（台本）をプロンプトとして入力すると、V2Aモデルはキャラクターの口の動きに同期させようとする（リップシンク）が、使用する動画生成モデルがトランスクリプトに対応していない場合、ビデオと音声の間で不一致が生じることがあるという。

■関連サイト

ツイートする

カテゴリートップへ

AIオススメ記事

2025年01月27日

AI

動画生成AI、ついにアダルトの扉が開く
2025年02月17日

AI

月3万円で使えるOpenAIの「Deep Research」　驚異的だが、情報格差が広がる不安も感じた
2025年01月20日

AI

AIの書いた小説が普通に面白い　ChatGPT「o1」驚きの文章力
2025年01月27日

AI

グーグルAI「Gemini」　無料版と有料版の使い方を徹底解説
2025年01月27日

AI

ChatGPT超えの中国AI「DeepSeek-R1」の衝撃
2025年01月24日

AI

OpenAI、最新AIモデル「o3 mini」無料開放　「o1」超えるつよつよ性能
2025年01月28日

ITトピック

まだ遅くないAI学習　無償の学習基盤を日本マイクロソフトが公開
2025年02月01日

クラウド

火中の栗「DeepSeek」を拾うマイクロソフトの脊髄反射がすごい
2025年02月14日

AI

完全無料！話題のDeepSeek R1をローカルで動かしてみた。MacやスマホでもOK！
2025年02月06日

AI

「DeepSeek」コード内にユーザーデータを中国政府に送信する機能か　米メディア報道

102554

ピックアップ

sponsored
大阪市内で2026年1月に運用開始する“コネクティビティデータセンター”、注目を浴びる背景やターゲットを聞く

クラウド時代に選ばれるデータセンターへ　オプテージ「曽根崎データセンター」はネットワークへの接続性が強み
sponsored
31.5インチQD-OLEDパネルの4Kモデルに新色！MSI「MPG 321URXW QD-OLED」レビュー

ホワイトゲーミングPCに高機能なホワイトディスプレーを組み合わせたら神環境になった話
sponsored
プロの情シスが「SKYSEA Client View M1 Cloud Edition」を試す

1人情シスのみなさんに代わって、AmazonでSKYSEAを買ってみました
sponsored
JN-QOLC49G144DQ-HSC9Lをレビュー

【めちゃ綺麗！】サムスンディスプレイ製量子ドット有機ELパネルがスゴイ32:9ディスプレー、発色・色再現性よくゲームに役立つ機能も豊富！
sponsored
サムスンディスプレイ製パネル採用ウルトラワイド「JN-QOLC49G144DQ-HSC9L」の魅力に迫る

サムスンディスプレイ製QD-OLEDパネルは何がスゴイ？ポイントは白なしRGBのみで色を再現している点
sponsored
快適な装着感でIP57の防水仕様、迫力あるサウンドも実現！

オープンイヤー型で耳を塞がないのが快適！耳掛けイヤホンの新定番になりそう！「HUAWEI FreeArc」レビュー
sponsored
MSI「MAG B850 TOMAHAWK MAX WIFI」レビュー

AMD RyzenでゲーミングPC自作するのに「ちょうどよい」チップセット、性能、拡張性、価格のB850マザーボードとは
sponsored
新作のカマンベール入りにしますか、定番のチェダー入りにしますか

チーズが口の中であふれる！ケンタッキーの「チーズにおぼれるフィレバーガー」はチーズ好きも納得の濃厚な食べごたえがスゴい！
sponsored
ビジネス・クリエイター向けCopilot+ PC、MSI「Prestige 13 AI+ Evo A2VM」レビュー

1kg切って14時間駆動でCore Ultraシリーズ2搭載で良コスパ、AIに強いノートPCを見つけた
sponsored
QNAPのNAS「TBS-h574TX-i5-16G」をレビュー

35万円超NAS、Thunberbolt 4＆10GbEでPCとつないだら神速すぎ！ 18.2GBを7秒でコピー
sponsored
JN-IPS2380UHDR-C65W-HSPをレビュー

実は超レアな23.8型4Kディスプレー、USB Type-C給電・KVM・昇降式多機能スタンドで約4.2万円はコスパ激強
sponsored
MSIの「MPG Z890 EDGE TI WIFI」をCore Ultra 7 265Kを使ってレビュー

雪山みたいな白銀の美しさ、白で統一したゲーミングPC自作でハイエンドを目指すためのZ890マザーボード
sponsored
設定が簡単なAV over IPスイッチで、役員会議室向けの映像／音声IPネットワークをすべて統合

イトーキが考える「進化し続けるオフィス」、それを支えるネットギア「M4350」スイッチ
sponsored

約986gの衝撃、切れ味鋭いエッジが光る「AI時代のThinkPad」―今売れているThinkPad X1 Carbon Gen 13 Aura Editionをひも解く
sponsored
ネットワークとセキュリティを統合した「セキュアSD-WAN」がこれからのトレンド

あなたの会社でも起こりうる“SD-WANのセキュリティ設定漏れ”、どうやったら防げた？
sponsored
「最小限の情報しか見せない」設定で社内情報が漏れるのを防ぐ

Backlogに社外メンバーを招待する際のリスクと“安全な設定方法”とは？
sponsored
2ケタ成長が期待される日本・アジアのビジネス、SIパートナービジネスが大きな鍵を握る

企業やSIerが“付き合いやすいColt”へ、大江代表に聞く2025年の成長戦略
sponsored
Z by HP Data Science Ambassadors×日本HP×NVIDIA、ローカル生成AI特別対談

生成AIの次なるステージ：ローカル環境がビジネスの新しい扉を開く理由
sponsored

ビデオカードなしで｢FFXIV: 黄金のレガシー｣の60fps超えが狙える!? 「AMD Ryzen 5 8600G」の実力を見た！