このページの本文へ

新清士の「メタバース・プレゼンス」 第133回

xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル

2025年11月24日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

工夫次第で動画の長さを延長可能

 Grok Imagineは、記事執筆時点(23日現在)では、動画の長さとして6秒しか作れず、また始点画像しか指定できないため、融通が利かない点が課題です。

 ただし、素材づくりとしては優秀です。例えば、動画を長くするために、これまでの動画生成AIで使われていたテクニックである、最終フレームから動画を“延長”する方法がそのまま使えます。

 一度生成した動画の最終フレームをスクリーンショットとして切り出して、次の開始フレームにすることで、動画の続きを作るという方法です。このテクニックで強引に4回繰り返してみたのが次の動画です。こうすれば6秒の動画を24秒に延長できます。ただし、自動車が動かなくなっていたり、歩く速度が変わってしまったりと不自然な点が出てくるため、動きの少ないシーンで使うなど使い方は工夫する必要があります。もちろん、音楽や効果音は連続せず、動画は編集ソフトで結合したりする作業が必要になります。また、だんだんと後になるほど、画像の品質が劣化していく傾向もあるので、そこも工夫が必要です。

△エンドフレームを切り出す方法で、24秒の動画にしたもの

最初の画像(左上)から、最終フレームを切り出して、開始フレームとした画像

 物理的な挙動もかなり正確に表現できるようです。「グラスにワインを注ぐ」という物理的な正確さが重要になる指示でも、グラスの模様が少し変わっているように見えるなど完璧ではないのですが、かなり頑張ってくれています。一定のワールドシミュレーションの能力はあるようです。(参考:「画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」

△Grokで生成したグラスにワインを注ぐを3回試したもの

 さらに、「若い女性がグラスをとってワインを飲みほす」、「犬がワインを飲み干す」、「大きなクマがグラスを取って飲み干す」などの指示にもちゃんと対応してくれました。さらに、ハンマーでグラスを割ろうとしてみたのですが、うまくいきませんでした。まだ、物理系は完璧ではないようです。

△Grokでワインを女性、犬、クマが飲み干す。ハンマーで割る

 さらに、ユーザー側でプロンプトを工夫することにより、指定秒数での描写内容や、エンドフレームを強引に指定もできるとXで報告されてます。エンドフレームを指定する際は、1枚の画像にスタート/エンドの2パターンを入れておき、プロンプトで指示をするというやり方です。

 まだまだ、未発見のテクニックが隠れていると考えられます。

カテゴリートップへ

この連載の記事
ピックアップ