動画生成AI「Sora 2」強力機能、無料アプリで再現してみた

2025年10月27日 07時00分更新

文● 新清士

ローカル動画AIでシーンを動画化

　次に、これをComfyUIの動画AI「Wan 2.2」に適用します。作成したプロンプトと画像を設定して動画を生成します。生成単位は5秒としました。

　この際に、筆者の場合は、生成した画像を「終点フレーム」として指定することが多いです。開始フレームにすると、その後、まったく別の動きに変わってしまうことがたびたびあったからです。終点にすれば、必ず元の画像に戻ってくるため、外れにくくなるのです。

　そして、動画編集ソフトの「Adobe Premiere Pro」で統合します。事前に用意したセリフを音声生成サービス「Elevenlabs」で作成します。効果音は、動画内容から音を推測してくれる「MMAudio」で作成します。音楽は「Suno」で作成します。

　最後に、すべてのアセットを結合したら出来上がりです。もちろん、Sora 2の生成速度には遠く及ばず、カット数や間合いの調整など、まだまだ手順は手間がかかっていますが、全体で1時間程度あれば作成できる印象です。工夫次第では、十分に使えるワークフローになるのではないかと感じました。

　冒頭の動画も、生成単位を2秒にして、同じ手順で制作しています。

△「AI Storyboard Generator」を使い作成した動画

　参照画像とプロンプトがあれば、同じことはバイトダンスの画像AI「Seedream 4.0」や、動画AI「Seedance」でも可能になります。同社系列の「Sousaku ai」を使って作成してみました。25日に、Seedanceの高速・低価格版「Seedance Fast」がリリースされているため、こちらを使ってみます。

　筆者の経験では、Seedream 4.0の方がNano Bananaよりも画像のカメラワーク指定に忠実で美しい画像が出る傾向があるのですが、一部、忠実すぎるせいで不要な部分まで描いてしまうハルシネーションが出る傾向もあります。そのため、複数枚生成して、良いものを選ぶ方法が望ましいです。ボツにした画像には、焼き鳥の屋台にパンが吊り下げられているという謎の場面が出てきました。

　音声の生成機能はないため、同じようにMMAudioで効果音を、Sunoで作成した音楽を、音声はWan2.2を作成時のものを流用し、Premiere Pro上で結合します。

　しかし、課題もあります。i2v（画像から動画）で生成する場合には、画像を開始画像とするほかなく、意図しなかった展開をすることがあります。また、プロンプト通りに明日来子さんが登場するカットを生成する力は強いのですが、動画AIにリファレンス機能がないので、そのシーンではまったく違う人になっています。これは工夫が必要でしょう。