動画生成AIの常識を破壊した OpenAI「Sora」の衝撃

2024年03月04日 07時00分更新

文● 新清士　編集●ASCII

Soraが世界そのものをシミュレートする可能性

OpenAIが公開したSoraの動画より。コーヒーが波打ち、帆船がその影響を受けている

　Soraをめぐり、特に面白い議論になっているのはSoraを「世界シミュレーター」としてどう位置づけるのかです。

　発表されたSoraの動画がこれまでの生成動画と大きく違うのは、物理的に正しい振る舞いをしているように見える点です。「コーヒーカップの中を航行する2隻の海賊船が、互いに争っている様子を写実的にクローズアップした映像」というプロンプトで作成された動画では、波の中で2隻の帆船が、物理的に正しく揺れ動いているように思えます。

　これまでの常識では動画を生成する上で実現が難しい処理のひとつと考えられていたのです。Open AIはこの点についても詳しい説明をしておらず、どのように実現しているのかは専門家のあいだでも意見が分かれています。

If you think OpenAI Sora is a creative toy like DALLE, ... think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024

^{▲世界シミュレーターをどう理解するのかに関するJim Fan（ジム・ファン）氏の発言}

　考え方は、大きく2派に分かれています。

　1つは、動画生成のプロセスに物理計算を組み込んで、生成プロセスに影響を与えているという立場。AI専門家であり起業家のGary Marcus（ゲイリー・マーカス）氏は「物理エンジンを設計して、その世界を描画するシステムを実装しないと成り立たないはずだ」としています。現状、実装されている物理はレベルが低く、より正確な実装が必要だという立場です。

　これに対してのもう一方の考え方は、学習プロセスのなかで、学習データが物理的な法則を持ちはじめたとするものです。

　特に、NVIDIAの研究者であるJim Fan（ジム・ファン）氏です。「学習するプロセスのなかで、学習データのなかに3Dの属性を持ち始めたのではないか」と言います。たとえばコップに入っている水の物理法則はまだおかしいものですが、これはLLMにおけるハルシネーションと同じようなものだと。クオリティーが高いデータで追加学習を続ければ、ある時点でエンジン側が物理特性を自然に学習して、生成されるものが物理特性をもったもののように振る舞うようになるのではないかという立場です。これはLLMが大量にデータを学習させた結果、“知性”と呼ばれるようなものを獲得したのと類似した状態と言えるかもしれません。

OpenAIが公開した動画より。コップから水が染み出ており、物理挙動として間違っている

I see some vocal objections: "Sora is not learning physics, it's just manipulating pixels in 2D".

I respectfully disagree with this reductionist view. It's similar to saying "GPT-4 doesn't learn coding, it's just sampling strings". Well, what transformers do is just manipulating… pic.twitter.com/6omzD423vr
— Jim Fan (@DrJimFan) February 16, 2024

^{▲Jim Fan氏の発言から。失敗した物理挙動のコップは、LLMのハルシネーションと同じ意味合いとしている}

　現状はジム・ファン氏の説の方が可能性は高いと見られています。OpenAIとしては、より多くの画像を学習していくことで“世界そのものを再現できる”可能性があるため、OpenAIが目指しているのは、まさにそれではないかとされています。つまり、さらなる高度な学習が進むと、世界そのものがシミュレートできる環境がSoraの中に出現する可能性があるのです。

"an extreme close up shot of a woman's eye, with her iris appearing as earth"

Video generated by #Sora pic.twitter.com/UIPFJTj7x7
— Tim Brooks (@_tim_brooks) March 2, 2024

前へ 1 2 3 4 5 次へ

ツイートする

カテゴリートップへ