動画生成AIの常識を破壊した OpenAI「Sora」の衝撃

2024年03月04日 07時00分更新

文● 新清士　編集●ASCII

既にある技術を“超豊富”な計算資源で利用か

　OpenAIが新しいモデル技術を作っているのは確かですが、とはいえ、気が遠くなるほどに革新的な技術は使っていないんじゃないかという説があります。

　そのひとつに、2021年にDeepMindが出してきた「時空間パッチ（Space-Time Patch）」を利用しているのではないか、という説が有力です。このアプローチは、動画を空間と時間の両方にわたって積み重ね、データをサイコロ状に分割することで、一貫性を保ったデータとして扱えるようになります。そのサイコロ状の固まりのデータを大量に作成したうえ、GPT4-Vのような高度なLLMで動画をテキストでラベリング処理したものを学習データとして使い、Soraを作ったのではないかという説です。AIとコンピュータサイエンスの専門家であるVincent Koc氏によると、これこそSoraが高品質な動画を作れた核心ではないかと。

structure of slit-scan
スリットスキャンの構造 pic.twitter.com/wxxvi9bkYq
— Kitasenju Design (@kitasenjudesign) February 3, 2022

^{▲スリットスキャンと呼ばれる映像を時空間で扱えるようにするための概念イメージ。時空間パッチはこのイメージに近いと考えられている。}

Open AIの技術レポートより。データソースとなる動画は、時空間パッチで扱えるように処理される

　時空間パッチによって作られた学習モデルによって動画を生成すると、1コマずつ生成するために一貫性が維持できませんが、Soraの場合、一定時間の一貫性を持った情報がモデルの中に組み込まれているため、その限界を魔法のように超えてきます。

　もちろん、Soraで作られた動画でも、桜の動画に見られるように「人物のサイズがどんどん小さくなっていく」といった不自然な事が起きたりします。これが現状の時空間パッチの限界とも言えます。

OpenAIの公開した動画から。この動画では二人の人物の建物との比率がどんどん変わっており、人物が相対的にどんどん小さくなっていく

　そしてこの手法は、Soraのために新たに画期的な方法論が発見されたというわけではなく、既にある方法を実直に組み合わせたものであろうと考えられています。ただし、それを実現するためには膨大な計算処理量が必要で、マイクロソフトの無尽蔵のサーバーを利用できるOpenAIの環境がなければ成立しないという可能性も考えられます。

　ポイントは、どんな動画のデータソースでどれくらいの量を学習させたのかがまったく謎であることです。技術レポートは、この点について詳細な言及がありません。Soraで生成される画像が多様かつ品質が高いこともあり、データソースの品質も相当コントロールされたものが使われていると考えられます。映画やドキュメンタリーのような長回しシーンを学習しているとの説も上がっています。品質にばらつきのあるYouTubeの動画といったものを学習しているとも考えにくく、どこかの企業から大量に動画を購入している可能性も挙げられています。

OpenAIが公開した動画より。プロンプトに「マインクラフト」を入れて出力したとしている

　ゲームエンジンで同じような動きの動画を大量に作らせて、学習させたのではないかという示唆もあります。動画の中には、マインクラフト風の画像を生成している動画もあります。実際、Open AIはマインクラフトクローンのゲームを開発していたベンチャー会社Global Illuminationを2023年8月に買収しています。そこでゲームエンジンを使ったCGの動画素材を大量に作成して、特に物理挙動をする物体の映像を作って学習素材にしたと考えられます。

Global Illuminationが開発していたマインクラフトクローンの「Biomes」トレイラーより

　いずれにしてもデータセットがかなり大規模であることは間違いありません。ニューヨーク大学のSaining Xie（サイニング・シェ）助教授の推計では30億パラメータにのぼる可能性があるということです。各サービスの動画AIがどの程度のパラメータを持っているのかは明らかにされていないため、これがどの程度の規模なのか指摘するのは難しいのですが、画像生成AIとの単純な比較では、2022年8月の「Stable Diffusion」の最初のバージョンが約9億パラメーター。Open AIが同時期に公開したDALL-E2は、パラメータ数は公開されていないのですが、約35億パラメーターではないかという推計があります。

When Bill and I were working on the DiT project, instead of creating novelty (see my last tweet🤷‍♂️), we prioritized two aspects: simplicity and scalability. These priorities offer more than just conceptual advantages.

- Simplicity means flexibility. The cool thing about vanilla… pic.twitter.com/jXNO93jXN1
— Saining Xie (@sainingxie) February 16, 2024

^{▲30億パラメータであるとする、Xie氏の推論}

　動画生成AIは情報がより複雑であるため、画像生成AIよりも、より多くのパラメーターを必要とする傾向があるとはされています。それを加味して考えると、Soraでさえ初期段階とは言えるでしょう。Open AIが次々にSNSに投稿する動画のバリエーションには、まだ限界が見えてきている状態ではなく、その幅はかなり広そうです。ここまで来ると、計算資源として、他社は簡単に追いつけない規模であると考えられます。ただ、Xie氏は「Soraモデルのトレーニングに予想されるほど多くの GPUを必要としない可能性がある」とも述べており、意外と小さな計算資源で実現できる可能性もあります。

　それでも、Stability AIが公開している「Stable Video Diffusion」のようなオープン型のモデルが追いつくのは簡単ではないとの推測もあり、豪マッコーリー大学のRaphaël Millière（ラファエル・ミリエール）助教授は「少なくとも数年はかかる」と予測しています。これは、一定の計算資源を確保して動画生成AIの開発を進めているRunwayやPikaも同様でしょう。

前へ 1 2 3 4 5 次へ

ツイートする

カテゴリートップへ