本稿で紹介する、筆者開発の「AI Storyboard Generator」を使って生成したプロンプトで作成した画像（筆者作成）

OpenAIの動画AI「Sora 2」が登場して1ヵ月。他社がまだ実現できていない、強力な優位性があります。10秒程度の短尺動画でも1本の物語として成立させてしまう圧倒的な能力です。短いプロンプトであっても、何本ものカットシーンを作り出し、さらに、登場人物の音声や音楽を場面に合わせて生成できます。一方で、複雑なシーンをプロンプトで指定しても機能する柔軟さも持ち合わせています。しかしSora 2には限界もあります。特に自由なコントロールが難しい点です。この課題を乗り越えるため、筆者はSora 2の機能を再現するためのアプリ「AI Storyboard Generator」を作成し、様々なサービスを組み合わせ、どこまで迫れるか試してみました。

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

「Storyboard」が再現の鍵に

まずは筆者が、Sora 2のようなことを、Sora 2以外のツールで実現できないかと開発したアプリ「AI Storyboard Generator」で作成した動画をご覧ください。Sora 2の仕組みを部分的に再現することで、ストーリー的な動画を手軽に作れるようにしたものです（アプリは無料公開しています。リンクは記事の最後）。

△明日来子さんの秋の一日

10月15日、OpenAIはストーリーボード（Storyboard）機能を月額200ドルのProユーザー向けに公開しました。米・カナダに向けて公開され、日本でも一部ユーザーには公開されていますが、まだ正式公開ではなく、今後利用可能になる予定です。

OpenAIの発表によれば、Storyboard機能では、Sora 2のシーンをカット単位で編集できるようになります。参照画像を指定することで、キャラクターや小道具、舞台となる環境の雰囲気が指定できます。何度も同じシーンを作り直せるため、一発出しで調整が効かないSora 2が制御可能になるわけです。

興味深いのは、この機能からSora 2の動作ルールがわかる点です。Sora 2に画像を登録すると、GPT-5が認識し、画像についての短い説明が付与されます。その後、テキストや画像を同時に処理できるマルチモーダルモデル「GPT-Image-1」によってシーンやキャラクターの静止画を生成して、Sora 2で連続したビデオに変換しているようです。

AIアニメ制作を積極的に発表しているyachimatさんがXで共有した動画から、Sora 2では参照画像を用いることで、動画の「開始」と「終了」のフレームを設定できることが判明しました。画像で最初と最後を指定し、その間に何が起きたのかをプロンプトで指定することで、Sora 2がその間のシーンを生成して、ストーリーを作っているのです。

Sora2 エンドフレーム

当然ですが、指定できました。（二つの画像を一つにしておいて渡す）



ぶっちゃけエンドフレームどころか絵コンテ渡してもいいんですが、これくらいのほうが自由度高くて動きもよくなるかな？っていう感覚です。… pic.twitter.com/S6ZeU2t6iy — yachimat - AI Short Anime (@yachimat_manga) October 13, 2025

△yachimatさんが投稿した動画。他の投稿でプロンプトが明らかにされている。それによると、「高速なカット割り、日本のアニメ、作画枚数多めで、24 fps、 学校にて。ほかの教室に忘れ物して急いで探しに行くが、おっちょこちょいなので階段でド派手に転ぶ。 転ぶ瞬間はマルチアングルのカメラでスーパースローモーション。 緩急をつけて、12秒でカタルシスを確実に演出して。」

Sora 2をブラウザで使う場合、参照画像は1枚しか指定できないため、それを2枚分にする手法ですが、生成された動画のカット数をカウントすると、12秒間に14カットもありました。これは入力された画像とプロンプトからGPT-5が必要なシーンを推定し、プロンプトが生成され、同時にセリフや音楽のプロンプトも作られた結果と思われます。そして、Sora 2で各画像に合わせた時間数に合わせて動画や音声、音楽が作られ、それらを最終的に結合していると考えることができます。

ただ、筆者も試してみたのですが、上下に分けた画像がどちらも動いてしまったり、自然なアニメーションになってくれなかったりと、Sora 2の制御の難しさを感じました。

△yachimatさんの方法論でSora 2で作成してみたもの