このページの本文へ

わずか0.5秒! グーグル、スマホで画像生成「MobileDiffusion」を発表

2024年02月05日 19時30分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

 グーグルは1月31日(現地時間)、5.2億という比較的小さなパラメーター数で動作するモバイルデバイス用に特別に設計された画像生成AI「MobileDiffusion」を発表した。

パラメーター数とノイズ除去ステップ数を削減

 テキストから画像を生成する拡散モデル(Diffusion model)をモバイルデバイスで実行するためには、主に2つの問題があったという。

 一つはモデルが学習している情報の量を数値で表したパラメーター数の問題。「Stable Diffusion」や「DALL-E」など既存の拡散モデルのパラメーター数は数十億を超えており、利用には強力なマシンパワーが必要となる。

 また、拡散モデルは画像を生成するために反復的なノイズ除去作業を必要とするが、その回数が増えれば増えるほど生成にかかる時間も長くなるという問題があった。

iPhone 15 ProとSamsung S24はいずれも0.5秒切り

 今回グーグルが発表したMobileDiffusionは、モバイルデバイス専用に特別に設計された、パラメーター数5.2億と比較的小さなサイズの効率的な潜在拡散モデルだ。

 「推論中のワンステップサンプリングを実現するために、事前訓練された拡散モデルを微調整しつつ、GANを使用してノイズ除去ステップをモデル化するDiffusionGANを採用」しており、512×512ピクセルの高画質画像をAndroidおよびiOS端末で0.5秒で生成することに成功したという。

1ステップでもおどろきの結果

 では、実際に生成された画像を見てみよう。上図は左から「SDXL(50steps)」「MobileDiffusion-Lite(50steps)」「MobileDiffusion(8steps)」「MobileDiffusion(1step)」を使って同じプロンプトで生成したものだ。

 8ステップはもちろん1ステップでも一見したところそこまで破綻のない画像が生成されている。プロンプトへの追従性も悪くないように見える。

 現段階では論文発表のみでデモサイトすら用意されていないが、数年後(いや数ヵ月後?)にはスマートフォンで楽々と画像生成ができているかもしれない。

■関連サイト

カテゴリートップへ

ピックアップ