このページの本文へ

新清士の「メタバース・プレゼンス」 第158回

SDXLの次はこれ? アニメ特化のローカル画像生成AI、驚きの実力

2026年05月25日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

複雑な髪形や服装でもしっかり再現

 なぜ、AnimaとSDXLでこれほど差が出るのでしょうか。一つには、SDXLが写真などの汎用環境からスタートし、人気のモデルも、様々なモデルとのマージや追加学習を繰り返しているために、非常に複雑な潜在空間を持つようになっていることが大きいと考えられます。そして、SDXLでは、様々な潜在空間を構成する層に画像を学習させていく必要があるため、効果が出るまでに時間がかかるという特徴があるようです。

 それに対して、Animaは「NVIDIA Cosmos」由来のモデルをベースにしており、全体を新しいデータで学習させたモデルで、画像の理解にも「Qwen3」系の新しい技術が採用されています。その上、アニメ特化で余分なものが足されていないため、LoRAの効果がより短い学習で出せるということのようです。言うなれば、余計な学習が足されていない分、「素直」なのです。

 次に、もう少し複雑なキャラでも実現可能か試してみましょう。

 まず、Animaで、ゲームに登場することを想定したSF風キャラクター(仮称アスレナさん)を1枚生成しました。意識的に、デザインが複雑なものを生成しました。

 それを、ローカルPCでも動作するアリババの画像AIモデル「QwenImageEdit-2511」のマルチアングルLoRAを使い、様々な角度やポーズの差分画像を多数作り、品質が高く、一貫性が維持できていると思われる50枚ほどを選びました。筆者は、それらにAnimaに適したタグ付けを行い、データセットを作成しました。

学習に使った仮称アスレナさんの基準画像(左)と、「QwenImageEdit-2511」で作った差分データ(右)

 この50枚にキャプションを付け、データセットを作り、様々なシーンを想定して生成した画像が以下です。ステップ数は1000で学習をしています。50枚でも、学習にかかったのは30分程度でした。

 特徴的なマント、頭の2本のヘッドセットのアンテナ、前髪とは異なる後ろ髪、水色の剣など、かなり再現できています。肩の紋章や、胸部分のデザインといった、差分データの時点で曖昧だった部分は、その曖昧さがそのまま出てしまっていますが、さらに画像を吟味して品質の高いデータで構成できれば、さらに一貫性のある高品質な画像を出力できると思われます。

生成結果をシンプルに出力したもの

仮称アスレナさんLoRAを使って生成した様々なシーン

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
ピックアップ