もはや実写と間違えるレベル　動画生成AI「Runway」の進化がすごい

2024年10月21日 07時00分更新

文● 新清士　編集●ASCII

Gen 3 Alphaの生成動画で上目遣いをする明日来子さん（筆者作成）

　クラウド型の動画生成AI「Runway」がしばらく見ないうちに進化していました。7月に新世代となる「Gen 3 Alpha」をリリースしていましたが、その後、8月に高速版の「Gen 3 Alpha Turbo」をリリースし、劇的な生成速度の向上と、始点となる画像を指定できるようになりました。そして、9日に終点の画像も指定できるようになり、コントロールできる範囲が大きく広がりました。1月にこの連載に登場してから、何度も作例に使っているオリジナルキャラクターの「明日来子さん」が表情を変えて動き出すまでになりました。動画生成AIもこんなところまで来たのかと驚かされます。

▲明日来子さんが、横を向き、上目遣いのあと、伏し目がちになり、またこちらに顔を向けるまでの30秒の動画。画像はMidjouneyで作った1枚しか使っておらず、残りの部分はすべてGen 3 Alphaで作っている

※記事配信先の設定によっては図版や動画等が正しく表示されないことがあります。その場合はASCII.jpをご覧ください

破綻なく“10秒動画”が作れる

　Runway Gen3 Alpha Turboの性能の高さは本物です。まずは動画生成AIサービスの中では長時間にあたる10秒間の動画が生成できることです。一般的には5秒以内というのが標準です。それ以上生成すると、画像の一貫性を維持するのが難しくなってしまうのです。しかしRunwayは、始点となる画像を指定する必要がありますが、10秒間大きく崩れずに動画を生成できます。画像サイズは固定されているものの、横長だけでなく、縦長も選べます。

　グーグルの画像生成サービス「Image FX」で生成した日本風の階段を動画にしてみたところ、その世界に入り込んだような表現が実現できました（参照：AIが考える“アイドル”がリアルすぎた　グーグル「Imagen 3」なぜ高品質?）。階段がなだらかになっていたりするので完璧ではないのですが、それでも存在しない世界の映像が作り出されています。

　そして、Runwayが9月に新機能としてアピールしたのが「スタイル変更」という、ビデオを別の絵柄に変換する機能です。10秒という限定条件はつくのですが、全く違うスタイルの動画へと変換することができます。日本のお寺、サイバーパンク、3Dアニメ風、日本のアニメ風の違う動画を作成してみました。どうも階段の下りの生成が苦手なようで、途中から上りになってしまっていますが。

　女の子を登場させてみると、女の子が階段を下っていく様子が出てきました。動画生成AIではよく起きるタイプのミスのサイズ感が若干おかしかったりするのですが、それでもパッと見ただけでは見抜けないかもしれません。

▲女の子を出してみた動画。10秒以降が拡張したもので、だんだんと不思議の国のアリス状態になっていく

　生成した動画は、8秒間の拡張（延長）をすることができ、最大3回の34秒まで拡張することができます。ただし画像としてのディティールはどんどん飛んでしまい、画像は単純化されていき、始点画像とは別物へと変わっていってしまいます。もとの画像との一貫性を維持できないという課題は、動画生成AIでは一般的に見られます。

　しかし、この乖離をある程度抑える方法も出てきています。それが7月に登場したLuma AIの「Luma Dream Machine」の「キーフレーム」という機能です。ある程度似ている画像を始点と終点に指定すると、その間を補完する形で動画生成をさせることで一貫性が保てるのです。9日にGen3 Alpha Turboがこの機能に対応したことで、一貫性を実現しつつDream Machineの5秒という生成能力の2倍の10秒で生成できるようになったのです。

　非常に感心したのが、2枚の画像を使い、始点と終点を指定するもの。同じ人物の写真を別カットで撮ったものを使うことで、すごく自然に、正確に出てきます。アニメ風のキャラクターであっても、同じような格好をしているものであれば、ちゃんと動いてくれます。