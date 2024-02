OpenAIは2月15日(現地時間)、テキストから最大1分間の動画を生成できる動画生成AIモデル「Sora」を大量のデモ動画と共に発表した。複数のキャラクター、特定の種類の動き、被写体と背景の正確な詳細を含む複雑なシーンを生成することができるという。

プロンプトから破綻のない動画を生成

Introducing Sora, our text-to-video model.



Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W



Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf — OpenAI (@OpenAI) February 15, 2024

上記は日本時間16日深夜、OpenAIが予告なしにXに投稿した動画だ。これは「Sora」が下記のスクリプトから生成しているという。

プロンプト:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.(美しく、雪に覆われた東京の街が賑わっている。美しい雪景色を楽しみ、近くの屋台で買い物をする何人かの人々を追いながら、カメラはにぎやかな街の通りを移動する。華やかな桜の花びらが雪の結晶とともに風を切って舞っている。)

まるでドローンで撮影したような滑らかな動画だ。もちろん細かく見ればツッコミどころもあるが、実際の東京の街で撮影したと言っても信じてしまうクオリティーになっている。舞い散る花びらや繋いだ手の破綻のなさにも驚く。

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS — OpenAI (@OpenAI) February 15, 2024

プロンプト:Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.(数頭の巨大な毛むくじゃらのマンモスが、雪の草原を踏みしめながら近づいてくる。長い毛むくじゃらの毛が風になびきながら歩く姿、雪に覆われた木々、遠くに見えるドラマチックな雪を頂いた山々)

こちらの例ではすでに絶滅したマンモスが迫力満点の疾走を見ることができる。

また、テキストだけではなく「DALL-E」などで生成された既存の静止画を元に動画を生成する「image 2 video」も可能だという。

OpenAIはSoraを「人々が現実世界の相互作用を必要とする問題を解決するのに役立つ学習モデルを目標に、物理的な世界を理解してシミュレートするようにAIをトレーニング」しているという。

つまり、ユーザーがプロンプトで求めたものだけでなく、それらのものが物理的な世界にどのように存在するかを理解しているということだ。

さらにOpenAIは「ビデオ生成モデルの発展は物理世界の汎用シミュレーターを構築するための有望な道であることを示唆している」と、壮大なビジョンを見せている。

ただし、現在のモデルには「複雑なシーンの物理特性を正確にシミュレートするのに苦労したり、原因と結果の特定のインスタンスを理解できなかったり」といった弱点があるという。

リリース時にはC2PAメタデータを含む予定

OpenAIはChatGPTなどのAI製品でSoraを利用できるようにする前に、いくつかの重要な安全装置を講じる予定だという。また、将来的にはAIが生成した動画とわかるようC2PAメタデータを含む予定だ。

さらに、画像生成AI「DALL·E 3」で構築した既存の安全方法を活用し、極端な暴力、性的コンテンツ、憎悪的な画像、有名人の肖像、または他人のIPを要求するものなど、OpenAIの使用ポリシーに違反するテキスト入力プロンプトをチェックして拒否するという。

グーグルを挑発する姿勢がより明確に

Soraの発表は、グーグルが新型LLM「Gemini 1.5」を発表した数時間後にXに投稿されている。

デモページの最後に表示されるこの画像でもわかるように、グーグルを猛烈に意識していることは間違いないようだ。