このページの本文へ

Stable Diffusion入門 from Thailand 第42回

【無料ローカルAI】音声付き動画を生成できる「LTX-2.3」ComfyUIでの使い方をわかりやすく解説!

2026年04月17日 17時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

人物、縦動画、商品カットで実力を測る

Comfy UIのLTX-2.3用テンプレート。驚くほどシンプル

人物アップ(日本人女性)

 デフォルト解像度が決まったところで、次はフォトリアルな表現力を測るため、夕暮れの都市部を背景にした日本人少女のクローズアップを試してみた。なお、今回の英文プロンプト生成はすべてGeminiを使用している。

プロンプト:Dynamic cinematic portrait of a young Japanese girl with a natural, friendly smile, standing in a blurred urban street in Japan at sunset. The camera slowly zooms in on her face as she gently tucks a strand of hair behind her ear and looks directly into the lens. Soft golden hour lighting illuminates her skin and hair. Subtle city ambience, distant train crossing sounds, and a gentle breeze in the background. High-quality 4k video, photorealistic textures.

1024 x 576/Duration5:生成時間105秒

 肌の質感や髪のディテールにおいて、1024x576という解像度以上の精細さを感じる結果となった。人物のアップはAIが最も得意とする領域であり、破綻の少なさが際立つ。

SNS向け縦動画(9:16)

 次は解像度を576x1024に設定した縦型動画だ。

プロンプト:Native vertical video, 9:16 aspect ratio. A close-up of a stylish young Japanese woman looking down intently at her smartphone screen in a dimly lit Tokyo subway at night. The soft, neon blue light from the screen illuminates her face and hair. She gently smiles and looks up at the camera for a brief moment. Distant train sounds and a subtle hum of the air conditioning. Photorealistic, high-detail textures.

576 x 1024/Duration5:生成時間113秒

 4秒強の音声付き動画を113秒で生成できた。ピクセル総数が横長(16:9)と同じであっても、縦型構図はスマホ全画面での視聴に適しており、素材出しとしての効率は極めて高い。

PV風演出(ステージ上の女性/パン移動)

 1024x576に戻り、ステージ上の女性を横移動(パン)のカメラワークで捉える複雑な構図をテストした。

プロンプト:Cinematic, low-angle shot of a mysterious young woman with short black hair, wearing a sleek black blazer, standing on a dimly lit stage with translucent curtains. Soft neon purple and blue backlighting creates a dreamlike bokeh effect. As the camera slowly pans around her, she looks up and gives a faint, enigmatic smile. Floating dust motes dance in the light beams. Deep, atmospheric synth pads with a slow, pulsing electronic beat and the distant sound of a quiet audience. 4k, ultra-photorealistic textures.

1024 x 576/Duration5:生成時間138秒

 結果は約138秒で完走。背景の描き換え負荷が高いパン操作においても破綻することはなかった。

商品紹介(スマートフォン + ダークオーク材)

 最後はビジネス用途を想定し、高級感のあるデスクに置かれたスマートフォンの質感を検証した。

プロンプト:Cinematic close-up of a premium, minimalist smartphone and a sleek metallic stylus pen resting on a polished dark oak desk. The camera slowly glides sideways, capturing the elegant reflections of a nearby office window on the glass screen. In the blurred background, a modern, bright high-end office interior with a green plant is visible. Natural morning sunlight creates a professional and sophisticated atmosphere. Subtle sounds of a quiet office, a distant keyboard typing, and a soft, upbeat corporate ambient track. High-definition, 4k, photorealistic textures.

1024 x 576/Duration5:生成時間93秒

 メタルの反射や木目の描き込みが美しく表現されており控えめなBGMもついてくる。複雑な演技を必要としない静物カットでは、LTX-2.3の光学的リアリズムとNative Audioの相性はよく、広告用ラフの試作程度なら十分使えるだろう。

 ここまでの結果から、RTX 4070(12GB)でLTX-2.3を安定させるためには、縦×横の総画素数を60万以下に収めることが重要であることがわかった。今回、デフォルト解像度とした「1024x576」は約59万画素だ。これに対し、「1280x720」(約92万画素)に挑むと、サンプリング自体は通っても最後のVAEデコードでVRAMが11.5GBを突破し、エラーに直面しやすくなる。現状ではこのあたりに処理の壁が存在するようだ。

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
ピックアップ