このページの本文へ

前へ 1 2 3 4 5 次へ

新清士の「メタバース・プレゼンス」 第55回

動画生成AIの常識を破壊した OpenAI「Sora」の衝撃

2024年03月04日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷
 

 OpenAIが2月15日に動画生成AI「Sora」を発表して世界中が大騒ぎになりましたよね(ニュース記事)。生成可能な動画は最長で60秒間。人物や空間の一貫性を保持しながら、物理法則を伴って動いているように見える。これまで動画生成AIでは不可能とされていたことがすべてできていて、常識がひっくり返されました。

突如レベルの違う動画生成AIが登場した

Soraの技術レポート。トップの見出しに「世界シミュレーターとしてのビデオ生成モデル」と宣言している

 かつ、OpenAIは「世界シミュレーターとしてのビデオ生成モデル」というものをぶちあげてきました。「我々の研究結果は、ビデオ生成モデルを拡張することが、物理世界の普遍的なシミュレーターを構築する実現可能な方法であることを示している」と。これはなかなか強烈というか、普遍的な世界シミュレーターとは一体どういうものかが焦点になりました。

 「LLM(大規模言語モデル)は人間の脳の処理に近いため、LLMを拡張していけば人間の知性を翻案できる」という仮説があるように、この動画によって世界の振る舞い自体を組み込んでいけば世界全体を再現できるという話です。OpenAIは技術レポートを公開したのですが、手の内をすべて明かしたものではありません。そのため、業界関係者や研究者が一斉に、どうやって実現したかも含め、いろんなことを言い出したというわけですね。

 さっそく、生成動画AIサービスのPika、Runway ML(Gen2)、Stable Video Diffusionなどと比較する人も出てきました。Soraで入力されたものとまったく同じプロンプトを入力するものの、他のサービスではデフォルトでは4秒程度しか作れないところに限界があります。一応似たような画像は出ているんですが、決定的な違いとしてやっぱり物理法則が入っていない。ただ画像を連続的に出しているだけ。まず、その違いが鮮明になります。

 Stable Diffusionの動画生成機能「AnimateDiff」も、様々な研究で拡張が続けられていますが、こちらもやはり4秒程度が限界です。特に、動きが入ったアニメーションは原理的に一貫性を保てず崩壊しやすかったんですよね。そのため、参照用のビデオを使ってImage-to-Image(i2i)の技法を使うことで一貫性を保つのが、今は一般的なやり方になっています。しかし、それだと準備する動画に品質が依存してしまうことになります。

OpenAIの公開動画より。一体どうやったら、こうした動画が生成できるのか想像もつかない、車窓の風景の動画。東京の町並み、ガラスへの映り込みなど自然に見える

 一方、Soraは一貫性のある3D空間が構築されているように見えます。細かいところはおかしい部分もあるのですが、一見分からなかったりする。現時点でこれができるのは驚きです。

前へ 1 2 3 4 5 次へ

カテゴリートップへ

この連載の記事
ピックアップ