既にある技術を“超豊富”な計算資源で利用か
OpenAIが新しいモデル技術を作っているのは確かですが、とはいえ、気が遠くなるほどに革新的な技術は使っていないんじゃないかという説があります。
そのひとつに、2021年にDeepMindが出してきた「時空間パッチ(Space-Time Patch)」を利用しているのではないか、という説が有力です。このアプローチは、動画を空間と時間の両方にわたって積み重ね、データをサイコロ状に分割することで、一貫性を保ったデータとして扱えるようになります。そのサイコロ状の固まりのデータを大量に作成したうえ、GPT4-Vのような高度なLLMで動画をテキストでラベリング処理したものを学習データとして使い、Soraを作ったのではないかという説です。AIとコンピュータサイエンスの専門家であるVincent Koc氏によると、これこそSoraが高品質な動画を作れた核心ではないかと。
structure of slit-scan
— Kitasenju Design (@kitasenjudesign) February 3, 2022
スリットスキャンの構造 pic.twitter.com/wxxvi9bkYq
▲スリットスキャンと呼ばれる映像を時空間で扱えるようにするための概念イメージ。時空間パッチはこのイメージに近いと考えられている。
時空間パッチによって作られた学習モデルによって動画を生成すると、1コマずつ生成するために一貫性が維持できませんが、Soraの場合、一定時間の一貫性を持った情報がモデルの中に組み込まれているため、その限界を魔法のように超えてきます。
もちろん、Soraで作られた動画でも、桜の動画に見られるように「人物のサイズがどんどん小さくなっていく」といった不自然な事が起きたりします。これが現状の時空間パッチの限界とも言えます。
そしてこの手法は、Soraのために新たに画期的な方法論が発見されたというわけではなく、既にある方法を実直に組み合わせたものであろうと考えられています。ただし、それを実現するためには膨大な計算処理量が必要で、マイクロソフトの無尽蔵のサーバーを利用できるOpenAIの環境がなければ成立しないという可能性も考えられます。
ポイントは、どんな動画のデータソースでどれくらいの量を学習させたのかがまったく謎であることです。技術レポートは、この点について詳細な言及がありません。Soraで生成される画像が多様かつ品質が高いこともあり、データソースの品質も相当コントロールされたものが使われていると考えられます。映画やドキュメンタリーのような長回しシーンを学習しているとの説も上がっています。品質にばらつきのあるYouTubeの動画といったものを学習しているとも考えにくく、どこかの企業から大量に動画を購入している可能性も挙げられています。
ゲームエンジンで同じような動きの動画を大量に作らせて、学習させたのではないかという示唆もあります。動画の中には、マインクラフト風の画像を生成している動画もあります。実際、Open AIはマインクラフトクローンのゲームを開発していたベンチャー会社Global Illuminationを2023年8月に買収しています。そこでゲームエンジンを使ったCGの動画素材を大量に作成して、特に物理挙動をする物体の映像を作って学習素材にしたと考えられます。
いずれにしてもデータセットがかなり大規模であることは間違いありません。ニューヨーク大学のSaining Xie(サイニング・シェ)助教授の推計では30億パラメータにのぼる可能性があるということです。各サービスの動画AIがどの程度のパラメータを持っているのかは明らかにされていないため、これがどの程度の規模なのか指摘するのは難しいのですが、画像生成AIとの単純な比較では、2022年8月の「Stable Diffusion」の最初のバージョンが約9億パラメーター。Open AIが同時期に公開したDALL-E2は、パラメータ数は公開されていないのですが、約35億パラメーターではないかという推計があります。
When Bill and I were working on the DiT project, instead of creating novelty (see my last tweet🤷♂️), we prioritized two aspects: simplicity and scalability. These priorities offer more than just conceptual advantages.
— Saining Xie (@sainingxie) February 16, 2024
- Simplicity means flexibility. The cool thing about vanilla… pic.twitter.com/jXNO93jXN1
▲30億パラメータであるとする、Xie氏の推論
動画生成AIは情報がより複雑であるため、画像生成AIよりも、より多くのパラメーターを必要とする傾向があるとはされています。それを加味して考えると、Soraでさえ初期段階とは言えるでしょう。Open AIが次々にSNSに投稿する動画のバリエーションには、まだ限界が見えてきている状態ではなく、その幅はかなり広そうです。ここまで来ると、計算資源として、他社は簡単に追いつけない規模であると考えられます。ただ、Xie氏は「Soraモデルのトレーニングに予想されるほど多くの GPUを必要としない可能性がある」とも述べており、意外と小さな計算資源で実現できる可能性もあります。
それでも、Stability AIが公開している「Stable Video Diffusion」のようなオープン型のモデルが追いつくのは簡単ではないとの推測もあり、豪マッコーリー大学のRaphaël Millière(ラファエル・ミリエール)助教授は「少なくとも数年はかかる」と予測しています。これは、一定の計算資源を確保して動画生成AIの開発を進めているRunwayやPikaも同様でしょう。

この連載の記事
-
第97回
AI
AI法案、柔軟規制で国会審議へ 罰則なし“ソフトロー”の狙いは -
第96回
AI
AI生成の3Dデータが実用レベルに近づいてきた -
第95回
AI
月3万円で使えるOpenAIの「Deep Research」 驚異的だが、情報格差が広がる不安も感じた -
第94回
トピックス
1000円あればOpenAIレベルのAIが作れる DeepSeekで注目の「蒸留」とは -
第93回
AI
DeepSeek R1、無料で使えるAIとしては最強クラス -
第92回
AI
動画生成AI、ついにアダルトの扉が開く -
第91回
AI
AIの書いた小説が普通に面白い ChatGPT「o1」驚きの文章力 -
第90回
トピックス
画像生成AIで年賀状 リアルな人物も簡単に -
第89回
AI
OpenAI「Sora」残念な離陸 中国勢が飛躍する動画生成AI -
第88回
AI
1枚の画像から、歩き回れる“世界”ができる 来年のAIは「ワールドモデル」がやばい -
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ - この連載の一覧へ