動画生成サービスを展開するRunwayは6月17日、高品質で詳細な制御が可能な次世代の動画生成モデル「Gen-3 Alpha」を発表した。
「汎用世界モデル」構築のための第一歩
Introducing Gen-3 Alpha: Runway’s new base model for video generation.
— Runway (@runwayml) June 17, 2024
Gen-3 Alpha can create highly detailed videos with complex scene changes, a wide range of cinematic choices, and detailed art directions.https://t.co/YQNE3eqoWf
(1/10) pic.twitter.com/VjEG2ocLZ8
Gen-3 Alphaは前モデルの「Gen-2」と比べて、画質、一貫性、動きの面で大幅な改善を実現。今後数日以内(over the coming days)に誰でも利用できるようになる。同社はこのモデルが「General World Model(汎用世界モデル)」を構築するための一歩となるとしている。
動画と画像の両方を用いたマルチモーダル学習により、テキストから動画、画像から動画、テキストから画像など多様なタスクが実行可能。「Motion Brush」「Advanced Camera Controls」「Director Mode」などの既存のコントロールモードにも対応する。
また、高度に記述的で時間的に密な説明文を用いて学習することで、想像力豊かな遷移や正確なキーフレーミングが可能になっている。表情豊かな人物キャラクターを生成することができ、多様な動作、ジェスチャー、感情表現も得意だ。
Gen-3 Alpha is the first of an upcoming series of models trained by Runway on a new infrastructure built for large-scale multimodal training, and represents a significant step towards our goal of building General World Models.
— Runway (@runwayml) June 17, 2024
Prompt: Subtle reflections of a woman on the window… pic.twitter.com/Lw54twUTbs
さらに、アーティスト向けに幅広いスタイルや映画用語を解釈できるよう設計されており、よりクリエイティブな表現を可能にするという。
As part of the family of Gen-3 models, we have been collaborating and partnering with leading entertainment and media organizations to create custom versions of Gen-3 Alpha.
— Runway (@runwayml) June 17, 2024
Customization of Gen-3 models allows for even more stylistically controlled and consistent characters,… pic.twitter.com/ebfyfzGoJv
また、エンターテインメントやメディア業界と協力し、カスタムバージョンの開発も進められている。これにより、特定の芸術的・物語的要件に合わせたモデルの調整が可能になるという。
同モデルは改良された社内の視覚的モデレーションシステム(不適切または問題のあるコンテンツをフィルタリングするシステム)やC2PA証明標準などの新たな安全対策を施したうえでリリースされる予定だ。