品質の違いは「Stable Diffusion」のバージョン違い?
2024年2月、OpenAIがそれまでの常識をひっくり返すレベルの動画生成AI「Sora」を発表したことで、動画生成AI扱う企業はSoraにどう追いつくのかという新たな競争段階に入りました。OpenAIはSoraを年内にリリースするとしていますが、YouTubeの映像などを学習に使っているのではないかとの指摘もあり、権利問題を抱えている可能性があることから、慎重に用意を進めているようで、今のところどのようにいつから公開するのかを明らかにしていません。そうすると他社は、Soraがリリースされるまでにどれだけ勝負できるのかという状況になっています。
OpenAIの競争相手としては「Runway」が最大の既存サービスでした。そのRunwayも6月17日に突然「Runway Gen-3 Alpha」のリリースを出しています。サービス開始時期など踏み込んだ情報はまだ発表されていないので、想像するしかありませんが、Luma AIにユーザーが流れるのをおさえたいという判断からの発表でしょう。発表されたデモ動画を見ても、Soraを意識して準備が進められていたことが感じられます。RunwayはStability AIと共同でStable Diffusion v1.5(SD 1.5)を開発していましたが、後にケンカ別れをした会社です。Runwayは静止画よりもクラウドでの動画生成AIシリーズに注力することで、新しい市場を開拓してきています。
Introducing Gen-3 Alpha: Runway’s new base model for video generation.
— Runway (@runwayml) June 17, 2024
Gen-3 Alpha can create highly detailed videos with complex scene changes, a wide range of cinematic choices, and detailed art directions.https://t.co/YQNE3eqoWf
(1/10) pic.twitter.com/VjEG2ocLZ8
▲Runway Gen-3 Alphaの発表の投稿。品質は高いが、それでも細かいところが潰れているように見える
詳しい技術情報は公開されていませんが、おそらくRunwayの動画生成AIシリーズは、SD 1.5を拡張したものではないかと推測できます。Runway Gen-3の動画をよく観察すると、SD 1.5の特有のノイズが画像に出ているように見受けられ、これまでの技術を拡張しているものではないかと考えられます。SD 1.5の512x512の画像で学習しているために、細かいところがつぶれているように見えるのです。このSD 1.5の限界は後発のPika Labsの動画にも感じられます。どうしても、画像がチラチラする感じで微妙に潰れている印象を受けます。
Have you tried our image-to-video model lately?
— Pika (@pika_labs) June 2, 2024
We’ve made some improvements. Let us know what you think! pic.twitter.com/14hAZvqm7n
▲PikaLabがImage-2-Videoの動画を紹介している動画。細かいところの潰れが見える
一方、OpenAIのSoraは、DALL·E 3をベースモデルとして学習させているとみられるため、比較するとGen-3は画質が劣っているように見えます。ただし一部のユーザーには先行公開が始まっているようで、評価も上々のようです。実際にリリースされてから、よりシビアに品質比較がされることになりそうです。
I've had early access to Gen 3 of @runwayml for 2 hours now, and I can already confirm it's an absolute beast!
— TechHalla (@techhalla) June 28, 2024
Here are my top 7 creations and their prompts 👇 pic.twitter.com/eSatTP96Sp
▲Runway Gen-3 Alphaの先行公開に参加しているユーザーの投稿
この連載の記事
-
第87回
AI
画像生成AIの進化が早すぎる 2024年に起きたことまとめ -
第86回
AI
イラストに強すぎる画像生成AIモデル SDXL系「NoobAI-XL」の衝撃 -
第85回
AI
3DモデリングにAI革命の兆し 1枚のイラストから3Dデータが完成 -
第85回
AI
誰でもVTuber時代へ フェイシャルAI技術、続々登場 -
第84回
AI
画像生成AI「Stable Diffusion 3.5」性能はものたりないが、自由度が高いのは魅力 -
第83回
AI
リアルすぎてキモい 動画AIの進化が止まらない -
第82回
AI
もはや実写と間違えるレベル 動画生成AI「Runway」の進化がすごい -
第81回
AI
AIイラスト、こうしてゲームに使っています -
第80回
AI
ゲーム開発はAI活用が当たり前になりつつあるが、面白さを作り出すのは人間の仕事 -
第79回
AI
AIが考える“アイドル”がリアルすぎた グーグル「Imagen 3」なぜ高品質? -
第78回
AI
話題の画像生成AI「FLUX.1」 人気サービス「Midjourney」との違いは - この連載の一覧へ