このページの本文へ

新清士の「メタバース・プレゼンス」 第69回

AI動画の品質が仕事に使えるレベルになってきた

2024年07月01日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

品質の違いは「Stable Diffusion」のバージョン違い?

 2024年2月、OpenAIがそれまでの常識をひっくり返すレベルの動画生成AI「Sora」を発表したことで、動画生成AI扱う企業はSoraにどう追いつくのかという新たな競争段階に入りました。OpenAIはSoraを年内にリリースするとしていますが、YouTubeの映像などを学習に使っているのではないかとの指摘もあり、権利問題を抱えている可能性があることから、慎重に用意を進めているようで、今のところどのようにいつから公開するのかを明らかにしていません。そうすると他社は、Soraがリリースされるまでにどれだけ勝負できるのかという状況になっています。

 OpenAIの競争相手としては「Runway」が最大の既存サービスでした。そのRunwayも6月17日に突然「Runway Gen-3 Alpha」のリリースを出しています。サービス開始時期など踏み込んだ情報はまだ発表されていないので、想像するしかありませんが、Luma AIにユーザーが流れるのをおさえたいという判断からの発表でしょう。発表されたデモ動画を見ても、Soraを意識して準備が進められていたことが感じられます。RunwayはStability AIと共同でStable Diffusion v1.5(SD 1.5)を開発していましたが、後にケンカ別れをした会社です。Runwayは静止画よりもクラウドでの動画生成AIシリーズに注力することで、新しい市場を開拓してきています。

 詳しい技術情報は公開されていませんが、おそらくRunwayの動画生成AIシリーズは、SD 1.5を拡張したものではないかと推測できます。Runway Gen-3の動画をよく観察すると、SD 1.5の特有のノイズが画像に出ているように見受けられ、これまでの技術を拡張しているものではないかと考えられます。SD 1.5の512x512の画像で学習しているために、細かいところがつぶれているように見えるのです。このSD 1.5の限界は後発のPika Labsの動画にも感じられます。どうしても、画像がチラチラする感じで微妙に潰れている印象を受けます。

 一方、OpenAIのSoraは、DALL·E 3をベースモデルとして学習させているとみられるため、比較するとGen-3は画質が劣っているように見えます。ただし一部のユーザーには先行公開が始まっているようで、評価も上々のようです。実際にリリースされてから、よりシビアに品質比較がされることになりそうです。

カテゴリートップへ

この連載の記事
ピックアップ