AI動画の品質が仕事に使えるレベルになってきた

2024年07月01日 07時00分更新

文● 新清士　編集●ASCII

品質の違いは「Stable Diffusion」のバージョン違い？

　2024年2月、OpenAIがそれまでの常識をひっくり返すレベルの動画生成AI「Sora」を発表したことで、動画生成AI扱う企業はSoraにどう追いつくのかという新たな競争段階に入りました。OpenAIはSoraを年内にリリースするとしていますが、YouTubeの映像などを学習に使っているのではないかとの指摘もあり、権利問題を抱えている可能性があることから、慎重に用意を進めているようで、今のところどのようにいつから公開するのかを明らかにしていません。そうすると他社は、Soraがリリースされるまでにどれだけ勝負できるのかという状況になっています。

　OpenAIの競争相手としては「Runway」が最大の既存サービスでした。そのRunwayも6月17日に突然「Runway Gen-3 Alpha」のリリースを出しています。サービス開始時期など踏み込んだ情報はまだ発表されていないので、想像するしかありませんが、Luma AIにユーザーが流れるのをおさえたいという判断からの発表でしょう。発表されたデモ動画を見ても、Soraを意識して準備が進められていたことが感じられます。RunwayはStability AIと共同でStable Diffusion v1.5（SD 1.5）を開発していましたが、後にケンカ別れをした会社です。Runwayは静止画よりもクラウドでの動画生成AIシリーズに注力することで、新しい市場を開拓してきています。

Introducing Gen-3 Alpha: Runway’s new base model for video generation.

Gen-3 Alpha can create highly detailed videos with complex scene changes, a wide range of cinematic choices, and detailed art directions.https://t.co/YQNE3eqoWf

(1/10) pic.twitter.com/VjEG2ocLZ8
— Runway (@runwayml) June 17, 2024

▲Runway Gen-3 Alphaの発表の投稿。品質は高いが、それでも細かいところが潰れているように見える

　詳しい技術情報は公開されていませんが、おそらくRunwayの動画生成AIシリーズは、SD 1.5を拡張したものではないかと推測できます。Runway Gen-3の動画をよく観察すると、SD 1.5の特有のノイズが画像に出ているように見受けられ、これまでの技術を拡張しているものではないかと考えられます。SD 1.5の512x512の画像で学習しているために、細かいところがつぶれているように見えるのです。このSD 1.5の限界は後発のPika Labsの動画にも感じられます。どうしても、画像がチラチラする感じで微妙に潰れている印象を受けます。

Have you tried our image-to-video model lately?

We’ve made some improvements. Let us know what you think! pic.twitter.com/14hAZvqm7n
— Pika (@pika_labs) June 2, 2024

▲PikaLabがImage-2-Videoの動画を紹介している動画。細かいところの潰れが見える

　一方、OpenAIのSoraは、DALL·E 3をベースモデルとして学習させているとみられるため、比較するとGen-3は画質が劣っているように見えます。ただし一部のユーザーには先行公開が始まっているようで、評価も上々のようです。実際にリリースされてから、よりシビアに品質比較がされることになりそうです。

I've had early access to Gen 3 of @runwayml for 2 hours now, and I can already confirm it's an absolute beast!

Here are my top 7 creations and their prompts 👇 pic.twitter.com/eSatTP96Sp
— TechHalla (@techhalla) June 28, 2024

▲Runway Gen-3 Alphaの先行公開に参加しているユーザーの投稿

前へ 1 2 3 4 次へ

ツイートする

カテゴリートップへ