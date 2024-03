OpenAIが2月15日に動画生成AI「Sora」を発表して世界中が大騒ぎになりましたよね(ニュース記事)。生成可能な動画は最長で60秒間。人物や空間の一貫性を保持しながら、物理法則を伴って動いているように見える。これまで動画生成AIでは不可能とされていたことがすべてできていて、常識がひっくり返されました。

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq

かつ、OpenAIは「世界シミュレーターとしてのビデオ生成モデル」というものをぶちあげてきました。「我々の研究結果は、ビデオ生成モデルを拡張することが、物理世界の普遍的なシミュレーターを構築する実現可能な方法であることを示している」と。これはなかなか強烈というか、普遍的な世界シミュレーターとは一体どういうものかが焦点になりました。

「LLM(大規模言語モデル)は人間の脳の処理に近いため、LLMを拡張していけば人間の知性を翻案できる」という仮説があるように、この動画によって世界の振る舞い自体を組み込んでいけば世界全体を再現できるという話です。OpenAIは技術レポートを公開したのですが、手の内をすべて明かしたものではありません。そのため、業界関係者や研究者が一斉に、どうやって実現したかも含め、いろんなことを言い出したというわけですね。

さっそく、生成動画AIサービスのPika、Runway ML(Gen2)、Stable Video Diffusionなどと比較する人も出てきました。Soraで入力されたものとまったく同じプロンプトを入力するものの、他のサービスではデフォルトでは4秒程度しか作れないところに限界があります。一応似たような画像は出ているんですが、決定的な違いとしてやっぱり物理法則が入っていない。ただ画像を連続的に出しているだけ。まず、その違いが鮮明になります。

SORA vs Pika vs RunwayML vs Stable Video.



I tried the same prompt as in one of @OpenAI's examples on the other GenAI video models. All of them produce much shorter videos around 5 seconds.



IMHO SORA's doing prompt enrichment just like Dall-E, will try that next. pic.twitter.com/dZZrra8DHd