このページの本文へ

Stable Diffusion入門 from Thailand 第36回

【無料で軽くて高品質】画像生成AI「Z-Image Turbo」が話題。SDXLとの違いは?

2025年12月12日 09時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

AI画像生成の“実用性”を高めた3つの進化点

 Z-Image Turboが注目される理由は、単に高速であることにとどまらない。日常的な制作ワークフローで役立つ「実用性の高さ」が3つの要素に集約される。

1. RTX 4070でも実用的な生成速度

 VRAM 12GBのGPUでも高速に動作する点は大きな魅力だ。1024×1024の標準的な画像サイズなら、数秒レベルで生成が完了する。高価なハイエンドGPUを用意しなくても、試行回数を増やしながら制作を進められるため、作業効率の向上につながる。まずは得意のフォトリアリスティックな画像を試してみよう。

プロンプト:A portrait photo of a young woman in natural light, 35mm lens, shallow depth of field, soft shadows, realistic skin texture, neutral expression, street background, high-quality photography style

 髪の毛、肌の質感、背景のボケ具合、どれも悪くない。

生成時間:16.2秒

 アニメ絵はあまり得意でないという報告もあるがどうだろうか。

プロンプト:An anime-style illustration of a girl standing in front of a city skyline at sunset, clean line art, vibrant lighting, soft shading, detailed hair and eyes, modern Japanese animation style

生成時間:18.1秒

2. 英語・中国語テキストの描画精度が向上

 Z-Image Turboは、画像内の文字描画において比較的破綻が少なく、英語や中国語などのアルファベット・漢字系テキストが安定しやすい。バナー制作やSNS用画像など、文字を含むグラフィック用途でも扱いやすい点が特徴だ。実際に英語と中国語で描かれたビルボードを生成してみよう。

プロンプト:futuristic cyberpunk city at night, giant holographic billboard floating above the street. Bold, ultra-sharp typography glowing with neon light.
English text: "AI IMAGE GENERATION"
Chinese text: "图像生成"
strong backlight, mist, dynamic perspective from below, dramatic composition.The text must be perfectly readable, not distorted.Ultra high-impact visual style.

 英語も中国語も破綻なく表示された。

生成時間:18.2秒

 日本語で試してみたところ、このように失敗してしまった。

生成時間:18.2秒

3. 2048×2048も“そのまま”生成しやすい安定性

 Turboモデルにしては高めの解像度にも対応しやすく、2048×2048といった高解像度でも破綻が出にくいケースが多い。追加のハイレゾ処理を必要としないため、ワークフローをシンプルに保ちつつ、利用範囲を広げやすい。

プロンプト:A detailed landscape of a futuristic city viewed from above, wide-angle perspective, complex lighting, atmospheric depth, high-detail buildings, 2048x2048 output, crisp and sharp rendering

 さすがにこちらは時間がかかったがVRAM12GBでもなんとか生成することができた。ただ、メモリーエラーで止まることもあったので、安定するには16GBは欲しいところか。

生成時間:78.3秒

 拡大したところ。細部まで描き込まれていることがわかる。

カテゴリートップへ

この連載の記事
ピックアップ