このページの本文へ

新清士の「メタバース・プレゼンス」 第111回

画像生成AI、日本の開発者コミュニティが熱い 世界最先端の “新手法”続々

2025年06月16日 11時30分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

「画像を回転させる技術」が出発点

 ここに至るまでには、前史があります。開発者のとりにくさん(tori29umai)が5月5日、Framepackで風景画像を回転させられるのではないかと「FramePack_rotate_indoor」というアプリを公開しました。これは画像を回転させるよう学習させたLoRAをFramePackの専用アプリとしてまとめたものです。

 そこでさらに、動画生成中の任意の静止画を取り出せることもわかってきます。そのためとりにくさんは、カメラの動きだけに注力したLoRAを作ります。そして5月22日に発表したのが、入力画像から「時計回り、反時計回り、アオリ、俯瞰」などのカメラ位置を変化させた画像を出力できる「AICameraRot」でした。

△部屋の画像を入力すると、それを回転させることを実現している動画

△AICameraRotで実現できている別角度のカメラに切り替えている画像。別角度に切り替えてもキャラクターの一貫性が保たれている

作例。上段中央の画像が元画像で、時計回り(左上)、反時計回り(右上)、アオリ(左下)、俯瞰(右下)。キャラクターの雰囲気がそのままうまく再現されている。元画像は896x1152だが、544x704で生成されている

 漫画家の野火城(のびしろ)さんは、本棚のある部屋の風景を試しています。カメラ位置を変えた場合でも、簡単に一貫性を保って変化させられたと報告しています。ただし、動作にはVRAM 16GB以上の高スペックなビデオカードが必要なようです。

 この手法が画期的なのは、一貫性の高さです。これまでの画像生成AIは、拡張機能「ControlNet」を使った画像コントロールが試されていましたが、1枚の画像からの推定では、一貫性を保ちながらカメラ位置を変えることができませんでした。Midjouneryの画像参照機能「Omni-Reference」も高い評価を集めていますが、それでも限界がありました。

 ところが、動画生成AIの技術と組み合わせることで、それを実現できることがわかったのです。ChatGPTの画像生成機能「4o Image Generator」も、指示によって画像の角度を変更できますが、類似の技術が使われていると考えられています。

同じ画像を参照画像としたChat-GPTでの時計回り(左上)、反時計回り(右上)。Grokでの時計回り(左下)、反時計回り(右下)。FramePackを利用するよりも生成時間は圧倒的に短いが、画風の忠実性と、ポーズの一貫性にまだ課題がある

カテゴリートップへ

この連載の記事
ピックアップ