このページの本文へ

グーグル、LLMを活用したマルチモーダル動画生成モデル「VideoPoet」発表

2023年12月21日 11時55分更新

文● 田口和裕

　グーグルの研究開発機関Google Researchは12月19日（現地時間）、テキストや画像から動画を生成するなど様々な動画生成タスクに対応できる大規模言語モデル（LLM）「VideoPoet」を発表した。

マルチモーダル対応

　「VideoPoet」は、動画、テキスト、画像、音声など多様なメディア形式に対応するマルチモーダルモデル。

　上記のショートムービーは、旅するアライグマについての短い物語を「Bard」に書いてもらい、それぞれのプロンプトに対してビデオクリップを生成し、それをつなぎ合わせたものだ。

テキストから動画

　「A Raccoon dancing in Times Square（タイムズスクエアで踊るアライグマ）」というテキストから生成された動画。

画像とテキストから動画

　こちらは画像とテキストの組み合わせから動画を作成した例。例えばいちばん左の船の画像に「A ship navigating the rough seas, thunderstorm and lightning, animated oil on canvas（荒波を進む船、雷雨と稲妻、キャンバスに油彩のアニメーション）」というテキストを組み合わせて動画化したものが左から2番めの動画だ。

動画とテキストから動画

　動画とテキストの組み合わせから新規動画を生成できる。たとえば左側の動画に「Wombat wearing sunglasses holding a beach ball on a sunny beach（晴れたビーチでビーチボールを持つサングラスをかけたウォンバット）」というテキストを組み合わせて動画をスタイライズ（後処理）したもの。

拡散モデルではなくLLMを使用

　現在、主要な動画生成モデルはほとんどが拡散（Diffusion）モデルをベースにしているが、本モデルは大規模言語モデルを用いているのが特徴だ。

　各タスクに特化した個別に訓練されたコンポーネントに依存するのではなく、単一のLLM内に多くのビデオ生成機能をシームレスに統合している。

　内部的には、ビデオやイメージをトークンにエンコード／デコードする複数のトークナイザー（ビデオとイメージはMAGVIT V2、オーディオはSoundStream）を使用しており、学習と生成はこれらが用いられている。

ベンチマークも優秀

　上記はプロンプトへの追従性についてPhenaki、Videocrafter、Show-1といった競合モデルと比較したもの。緑色がVideoPoetを支持した人の割合だ。

　こちらは「動きのおもしろさ」について聞いたもの。より多くの被験者がVideoPoetの動きはおもしろいと感じているようだ。

　現時点ではRunwayやPikaなどのツールに比べて出力品質は劣るとグーグルも認めているが、今後も研究を続けていくとしている。将来の展開として、文章から音声を生成したり、音声から動画を生成するといった「any-to-any」生成技術の開発も含まれている。

■関連サイト

ツイートする

カテゴリートップへ

AIオススメ記事

2024年04月29日

AI

漫画家の絵柄、AIでそっくり再現「ピュアモデルAI」ができたワケ
2024年04月15日

AI

画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも
2024年04月08日

AI

GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」
2024年04月08日

AI

3Dアニメーション技術の革新が止まらない
2024年04月05日

AI

AI検索「Perplexity」がかなり便利だったので紹介します
2024年04月24日

AI

マイクロソフト最新SLM「Phi-3」　メタ「Llama 3」あっさり抜く
2024年03月13日

AI

これは便利！「Stable Diffusion」が超簡単に始められる「Stability Matrix」
2024年04月22日

AI

日本語対応の画像生成AI、東京発のSakana AIが発表　既存モデルより10倍高速
2024年04月12日

AI

ChatGPT、有料版で「GPT-4 Turbo」が利用可能に。LLM評価ツールも無償提供
2024年03月22日

AI

ChatGPTのライバル「Claude 3」の使い方　良い点、悪い点まとめ

ピックアップ

sponsored
有線/2.4GHz/Bluetoothを選べるトリプルモード接続＆クリック音アリナシも選択可能

我が家の「深夜うるさい問題」を解決する静音ワイヤレスゲーミングマウス「ED-G3MPRO」
sponsored

200mmファンにダスト検知機能！エアフロー最強ケース「ProArt PA602」をレビュー
sponsored
JN-GMM1IPS28BKをレビュー

PS5の実力も引き出せる28型4K/144Hz、KVMまで使える万能モデルが7万円はコスパ◎！
sponsored
なぜクラウドストレージに切り替える企業が増えているのか

ファイルサーバー／NASとクラウドストレージの違いとは？《基本編》
sponsored
購入しやすい価格ながら機能充実、バッテリー長持ちの人気製品

1万円以下ウェアラブルの大定番がさらに進化！睡眠モニタリング精度アップの「HUAWEI Band 9」レビュー
sponsored
eスポーツ大会で採用される24インチクラスの新モデル

180Hzで3万円切りの即買いモデル、スピーカー内蔵のゲーミングディスプレー「G255PF E2」レビュー
sponsored
新たな敵は地中から現れる！

さらなる刺客（シカク）が四角い地球を襲う！5月23日発売『デジボク地球防衛軍２（略）』の魅力をチェック
sponsored
JN-MD-OLED156UHDR-Tをレビュー

15.6型4K有機ELのタッチ対応モバイルディスプレーと16型IPSのWQXGAモデル、どちらを買うべきか
sponsored
大阪・泉州産のスウェット生地を採用した「AKRacing by BEAMS DESIGN モデル」

スウェット生地のチェアってどう？編集部員何人かに座った感想を聞いてみた
sponsored
セブンアールジャパンの西川氏とASRockの原口氏にコダワリを聞いてきた

パソコンショップSEVENとASRockのコダワリが炸裂！ Threadripper PRO 7995WX搭載BTOPC
sponsored
従来よりもさらにコスパよくゲーミングPCを組みたい方へ

ゲーミングマザーボード「GAMING PLUS」シリーズ完全解説＆自作のオススメ構成例も紹介
sponsored
強化ガラス製マウスパッド「ROG Moonstone」など気になるデバイスもまとめて試す！

静音性重視の独自スイッチ“ROG NX Snow”がイイ！「ROG Strix Scope II 96 Wireless」をレビュー