このページの本文へ

新清士の「メタバース・プレゼンス」 第155回

非エンジニアが数百万円級のツールを開発 画像&動画生成AIツールがゼロから作れた話

2026年05月04日 07時00分更新

文● 新清士

  • この記事をはてなブックマークに追加
  • 本文印刷

ビューアーを“AI生成スタジオ”に発展

 次の段階では、単なるビューアーだけでなく、ComfyUIをサーバとして動かし、連携させることで、画像生成機能を追加し、「スタジオ」として発展させることにしました。画像モデル「Z-Image Turbo」の環境で画像を生成し、さらには、動画モデル「LTX-2.3」を組み込んで動画生成もできることを目指しました。

 生成自体の機能追加は比較的簡単にできました。すでにZ-Image Turboで生成できた画像があるため、メタデータをClaude Codeに読み込ませるだけでWorkflowの再現ができるためです。それをスタジオに組み込むように指示すればよいだけです。

 狙って追加した重要な機能が、LLM連携で簡単な日本語を入力すれば、そこから内容を膨らませて、自然なプロンプトとして使用可能な英文への変換機能です。Z-Image Turboは、日本語を認識するのですが、より精度高く理解させるには英語か中国語がよいとされているため、英語化するようにしたのです。もちろん、それらのプロンプトはテクニックガイドを参考に、その方針に沿った文案を出してくれるようにとも指示しています。

 また、画像をドラッグアンドドロップすると、その画像をプロンプトに再解釈して分解してくれる仕組みも入れました。これで精緻な自然文が求められる最近の画像モデルに複雑な指示ができるようにもなりました。これで、当初目標としていた、Claude Codeを使ってのトークンを消費するプロンプト生成は必要なくなりました。

 さらにはControlNetやLoRAの呼び出し機能、特定のキャラクターを出しやすくするための保存機能、カメラワークや服装などのプリセット追加機能などを追加していき、1週間程度でWebUI環境としては一通りの機能が揃ってきました。

百夜スタジオの画像モード。ControlNetやLoRA入力にも対応。使用したプロンプトは、プロンプト生成エリアで作ったもの

プロンプト生成エリア。下段の日本語を入力後、英語化すると、適当に膨らませて、自然文のプロンプトに対応。SDXL用では、タグとして出力される

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事
ピックアップ