Soraが世界そのものをシミュレートする可能性
Soraをめぐり、特に面白い議論になっているのはSoraを「世界シミュレーター」としてどう位置づけるのかです。
発表されたSoraの動画がこれまでの生成動画と大きく違うのは、物理的に正しい振る舞いをしているように見える点です。「コーヒーカップの中を航行する2隻の海賊船が、互いに争っている様子を写実的にクローズアップした映像」というプロンプトで作成された動画では、波の中で2隻の帆船が、物理的に正しく揺れ動いているように思えます。
これまでの常識では動画を生成する上で実現が難しい処理のひとつと考えられていたのです。Open AIはこの点についても詳しい説明をしておらず、どのように実現しているのかは専門家のあいだでも意見が分かれています。
If you think OpenAI Sora is a creative toy like DALLE, ... think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024
▲世界シミュレーターをどう理解するのかに関するJim Fan(ジム・ファン)氏の発言
考え方は、大きく2派に分かれています。
1つは、動画生成のプロセスに物理計算を組み込んで、生成プロセスに影響を与えているという立場。AI専門家であり起業家のGary Marcus(ゲイリー・マーカス)氏は「物理エンジンを設計して、その世界を描画するシステムを実装しないと成り立たないはずだ」としています。現状、実装されている物理はレベルが低く、より正確な実装が必要だという立場です。
これに対してのもう一方の考え方は、学習プロセスのなかで、学習データが物理的な法則を持ちはじめたとするものです。
特に、NVIDIAの研究者であるJim Fan(ジム・ファン)氏です。「学習するプロセスのなかで、学習データのなかに3Dの属性を持ち始めたのではないか」と言います。たとえばコップに入っている水の物理法則はまだおかしいものですが、これはLLMにおけるハルシネーションと同じようなものだと。クオリティーが高いデータで追加学習を続ければ、ある時点でエンジン側が物理特性を自然に学習して、生成されるものが物理特性をもったもののように振る舞うようになるのではないかという立場です。これはLLMが大量にデータを学習させた結果、“知性”と呼ばれるようなものを獲得したのと類似した状態と言えるかもしれません。
I see some vocal objections: "Sora is not learning physics, it's just manipulating pixels in 2D".
— Jim Fan (@DrJimFan) February 16, 2024
I respectfully disagree with this reductionist view. It's similar to saying "GPT-4 doesn't learn coding, it's just sampling strings". Well, what transformers do is just manipulating… pic.twitter.com/6omzD423vr
▲Jim Fan氏の発言から。失敗した物理挙動のコップは、LLMのハルシネーションと同じ意味合いとしている
現状はジム・ファン氏の説の方が可能性は高いと見られています。OpenAIとしては、より多くの画像を学習していくことで“世界そのものを再現できる”可能性があるため、OpenAIが目指しているのは、まさにそれではないかとされています。つまり、さらなる高度な学習が進むと、世界そのものがシミュレートできる環境がSoraの中に出現する可能性があるのです。
"an extreme close up shot of a woman's eye, with her iris appearing as earth"
— Tim Brooks (@_tim_brooks) March 2, 2024
Video generated by #Sorapic.twitter.com/UIPFJTj7x7
この連載の記事
-
第62回
AI
動画生成AI、映像制作の“民主化”目指して研究進む -
第61回
AI
画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも -
第60回
AI
3Dアニメーション技術の革新が止まらない -
第59回
AI
政府、生成AI推進に向けて議論を加速 -
第58回
AI
画像生成AIで同じキャラクターが簡単に作れるようになってきた -
第57回
AI
日本発のリアルタイム画像生成AIサービスが熱い 大手にとっては“イノベーションのジレンマ”に -
第56回
AI
画像生成AIの著作権問題、文化庁議論で争点はっきり -
第54回
AI
画像生成AI、安いPCでも高速に 衝撃の「Stable Diffusion WebUI Forge」 -
第53回
AI
日本発の画像生成AIサービスがすごい 無料アップスケーラー「カクダイV1」 -
第52回
AI
美少女イラスト、AI技術で立体化 ポケットサイズの裸眼立体視ディスプレーが人気に - この連載の一覧へ