Soraが世界そのものをシミュレートする可能性
Soraをめぐり、特に面白い議論になっているのはSoraを「世界シミュレーター」としてどう位置づけるのかです。
発表されたSoraの動画がこれまでの生成動画と大きく違うのは、物理的に正しい振る舞いをしているように見える点です。「コーヒーカップの中を航行する2隻の海賊船が、互いに争っている様子を写実的にクローズアップした映像」というプロンプトで作成された動画では、波の中で2隻の帆船が、物理的に正しく揺れ動いているように思えます。
これまでの常識では動画を生成する上で実現が難しい処理のひとつと考えられていたのです。Open AIはこの点についても詳しい説明をしておらず、どのように実現しているのかは専門家のあいだでも意見が分かれています。
If you think OpenAI Sora is a creative toy like DALLE, ... think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024
▲世界シミュレーターをどう理解するのかに関するJim Fan(ジム・ファン)氏の発言
考え方は、大きく2派に分かれています。
1つは、動画生成のプロセスに物理計算を組み込んで、生成プロセスに影響を与えているという立場。AI専門家であり起業家のGary Marcus(ゲイリー・マーカス)氏は「物理エンジンを設計して、その世界を描画するシステムを実装しないと成り立たないはずだ」としています。現状、実装されている物理はレベルが低く、より正確な実装が必要だという立場です。
これに対してのもう一方の考え方は、学習プロセスのなかで、学習データが物理的な法則を持ちはじめたとするものです。
特に、NVIDIAの研究者であるJim Fan(ジム・ファン)氏です。「学習するプロセスのなかで、学習データのなかに3Dの属性を持ち始めたのではないか」と言います。たとえばコップに入っている水の物理法則はまだおかしいものですが、これはLLMにおけるハルシネーションと同じようなものだと。クオリティーが高いデータで追加学習を続ければ、ある時点でエンジン側が物理特性を自然に学習して、生成されるものが物理特性をもったもののように振る舞うようになるのではないかという立場です。これはLLMが大量にデータを学習させた結果、“知性”と呼ばれるようなものを獲得したのと類似した状態と言えるかもしれません。
I see some vocal objections: "Sora is not learning physics, it's just manipulating pixels in 2D".
— Jim Fan (@DrJimFan) February 16, 2024
I respectfully disagree with this reductionist view. It's similar to saying "GPT-4 doesn't learn coding, it's just sampling strings". Well, what transformers do is just manipulating… pic.twitter.com/6omzD423vr
▲Jim Fan氏の発言から。失敗した物理挙動のコップは、LLMのハルシネーションと同じ意味合いとしている
現状はジム・ファン氏の説の方が可能性は高いと見られています。OpenAIとしては、より多くの画像を学習していくことで“世界そのものを再現できる”可能性があるため、OpenAIが目指しているのは、まさにそれではないかとされています。つまり、さらなる高度な学習が進むと、世界そのものがシミュレートできる環境がSoraの中に出現する可能性があるのです。
"an extreme close up shot of a woman's eye, with her iris appearing as earth"
— Tim Brooks (@_tim_brooks) March 2, 2024
Video generated by #Sorapic.twitter.com/UIPFJTj7x7

この連載の記事
-
第97回
AI
AI法案、柔軟規制で国会審議へ 罰則なし“ソフトロー”の狙いは -
第96回
AI
AI生成の3Dデータが実用レベルに近づいてきた -
第95回
AI
月3万円で使えるOpenAIの「Deep Research」 驚異的だが、情報格差が広がる不安も感じた -
第94回
トピックス
1000円あればOpenAIレベルのAIが作れる DeepSeekで注目の「蒸留」とは -
第93回
AI
DeepSeek R1、無料で使えるAIとしては最強クラス -
第92回
AI
動画生成AI、ついにアダルトの扉が開く -
第91回
AI
AIの書いた小説が普通に面白い ChatGPT「o1」驚きの文章力 -
第90回
トピックス
画像生成AIで年賀状 リアルな人物も簡単に -
第89回
AI
OpenAI「Sora」残念な離陸 中国勢が飛躍する動画生成AI -
第88回
AI
1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい -
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ - この連載の一覧へ