OpenAIが2月15日に動画生成AI「Sora」を発表して世界中が大騒ぎになりましたよね(ニュース記事)。生成可能な動画は最長で60秒間。人物や空間の一貫性を保持しながら、物理法則を伴って動いているように見える。これまで動画生成AIでは不可能とされていたことがすべてできていて、常識がひっくり返されました。
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
突如レベルの違う動画生成AIが登場した
かつ、OpenAIは「世界シミュレーターとしてのビデオ生成モデル」というものをぶちあげてきました。「我々の研究結果は、ビデオ生成モデルを拡張することが、物理世界の普遍的なシミュレーターを構築する実現可能な方法であることを示している」と。これはなかなか強烈というか、普遍的な世界シミュレーターとは一体どういうものかが焦点になりました。
「LLM(大規模言語モデル)は人間の脳の処理に近いため、LLMを拡張していけば人間の知性を翻案できる」という仮説があるように、この動画によって世界の振る舞い自体を組み込んでいけば世界全体を再現できるという話です。OpenAIは技術レポートを公開したのですが、手の内をすべて明かしたものではありません。そのため、業界関係者や研究者が一斉に、どうやって実現したかも含め、いろんなことを言い出したというわけですね。
さっそく、生成動画AIサービスのPika、Runway ML(Gen2)、Stable Video Diffusionなどと比較する人も出てきました。Soraで入力されたものとまったく同じプロンプトを入力するものの、他のサービスではデフォルトでは4秒程度しか作れないところに限界があります。一応似たような画像は出ているんですが、決定的な違いとしてやっぱり物理法則が入っていない。ただ画像を連続的に出しているだけ。まず、その違いが鮮明になります。
SORA vs Pika vs RunwayML vs Stable Video.
— Gabor Cselle (@gabor) February 16, 2024
I tried the same prompt as in one of @OpenAI's examples on the other GenAI video models. All of them produce much shorter videos around 5 seconds.
IMHO SORA's doing prompt enrichment just like Dall-E, will try that next. pic.twitter.com/dZZrra8DHd
Stable Diffusionの動画生成機能「AnimateDiff」も、様々な研究で拡張が続けられていますが、こちらもやはり4秒程度が限界です。特に、動きが入ったアニメーションは原理的に一貫性を保てず崩壊しやすかったんですよね。そのため、参照用のビデオを使ってImage-to-Image(i2i)の技法を使うことで一貫性を保つのが、今は一般的なやり方になっています。しかし、それだと準備する動画に品質が依存してしまうことになります。
一方、Soraは一貫性のある3D空間が構築されているように見えます。細かいところはおかしい部分もあるのですが、一見分からなかったりする。現時点でこれができるのは驚きです。
この連載の記事
-
第61回
AI
画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも -
第60回
AI
3Dアニメーション技術の革新が止まらない -
第59回
AI
政府、生成AI推進に向けて議論を加速 -
第58回
AI
画像生成AIで同じキャラクターが簡単に作れるようになってきた -
第57回
AI
日本発のリアルタイム画像生成AIサービスが熱い 大手にとっては“イノベーションのジレンマ”に -
第56回
AI
画像生成AIの著作権問題、文化庁議論で争点はっきり -
第54回
AI
画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 -
第53回
AI
日本発の画像生成AIサービスがすごい 無料アップスケーラー「カクダイV1」 -
第52回
AI
美少女イラスト、AI技術で立体化 ポケットサイズの裸眼立体視ディスプレーが人気に -
第51回
AI
“生成AIゲーム”急増の兆し すでに150タイトル以上が登録 - この連載の一覧へ