OpenAIが2月15日に動画生成AI「Sora」を発表して世界中が大騒ぎになりましたよね(ニュース記事)。生成可能な動画は最長で60秒間。人物や空間の一貫性を保持しながら、物理法則を伴って動いているように見える。これまで動画生成AIでは不可能とされていたことがすべてできていて、常識がひっくり返されました。
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
突如レベルの違う動画生成AIが登場した
かつ、OpenAIは「世界シミュレーターとしてのビデオ生成モデル」というものをぶちあげてきました。「我々の研究結果は、ビデオ生成モデルを拡張することが、物理世界の普遍的なシミュレーターを構築する実現可能な方法であることを示している」と。これはなかなか強烈というか、普遍的な世界シミュレーターとは一体どういうものかが焦点になりました。
「LLM(大規模言語モデル)は人間の脳の処理に近いため、LLMを拡張していけば人間の知性を翻案できる」という仮説があるように、この動画によって世界の振る舞い自体を組み込んでいけば世界全体を再現できるという話です。OpenAIは技術レポートを公開したのですが、手の内をすべて明かしたものではありません。そのため、業界関係者や研究者が一斉に、どうやって実現したかも含め、いろんなことを言い出したというわけですね。
さっそく、生成動画AIサービスのPika、Runway ML(Gen2)、Stable Video Diffusionなどと比較する人も出てきました。Soraで入力されたものとまったく同じプロンプトを入力するものの、他のサービスではデフォルトでは4秒程度しか作れないところに限界があります。一応似たような画像は出ているんですが、決定的な違いとしてやっぱり物理法則が入っていない。ただ画像を連続的に出しているだけ。まず、その違いが鮮明になります。
SORA vs Pika vs RunwayML vs Stable Video.
— Gabor Cselle (@gabor) February 16, 2024
I tried the same prompt as in one of @OpenAI's examples on the other GenAI video models. All of them produce much shorter videos around 5 seconds.
IMHO SORA's doing prompt enrichment just like Dall-E, will try that next. pic.twitter.com/dZZrra8DHd
Stable Diffusionの動画生成機能「AnimateDiff」も、様々な研究で拡張が続けられていますが、こちらもやはり4秒程度が限界です。特に、動きが入ったアニメーションは原理的に一貫性を保てず崩壊しやすかったんですよね。そのため、参照用のビデオを使ってImage-to-Image(i2i)の技法を使うことで一貫性を保つのが、今は一般的なやり方になっています。しかし、それだと準備する動画に品質が依存してしまうことになります。
一方、Soraは一貫性のある3D空間が構築されているように見えます。細かいところはおかしい部分もあるのですが、一見分からなかったりする。現時点でこれができるのは驚きです。

この連載の記事
-
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 -
第133回
AI
xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル -
第132回
AI
画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」 -
第131回
AI
AIに恋して救われた人、依存した人 2.7万人の告白から見えた“現代の孤独”と、AI設計の問題点 -
第130回
AI
グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen-Image-Edit-2509」の実力 -
第129回
AI
動画生成AI「Sora 2」強力機能、無料アプリで再現してみた -
第128回
AI
これがAIの集客力!ゲームショウで注目を浴びた“動く立体ヒロイン” -
第127回
AI
「Sora 2」は何がすごい? 著作権問題も含めて整理 -
第126回
AI
グーグル「Nano Banana」超えた? 画像生成AI「Seedream 4.0」徹底比較 -
第125回
AI
グーグル画像生成AI「Nano Banana」超便利に使える“神アプリ” AI開発で続々登場 -
第124回
AI
「やりたかった恋愛シミュレーション、AIで作れた」 AIゲームの進化と課題 - この連載の一覧へ







