このページの本文へ

新清士の「メタバース・プレゼンス」 第72回

人が絵を描く“工程”をAIで再現 タイムラプス風動画が炎上した「Paints-Undo」

2024年07月22日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

人間が1000回操作したと仮定して画像を生成する

 Paints-Undoはどんな仕組みで動いているのか。

 Paints-Undoはまだ論文として発表されていません。イリヤさんがGithubに発表している情報と、公開しているソースコードがすべてで、全体像は不明です。動画の学習済みデータも付属していますが、どのような特性をもつのかは部分的にしかわかりません。

 情報が限られるなか、技術を理解するためには、抹茶もなかさんの詳細な解説記事がわかりやすいです。世界的に見てもここまで詳しい記事は他にないのではないかと思います。

 筆者が記事を理解した範囲では、Paints-Undoの中核をなす技術は、キーフレームの生成過程を複数枚に生成する段階で使用する「シングルフレームモデル(single-frame model)」と、生成した画像の間を補完する動画を生成する「マルチフレームモデル(multi-frame model)」という2つのモデルです。

 キーフレームを生成するために使われるシングルフレームモデルは、1つのイラストが完成するまでに人間が1000回操作する(過程段階の画像を作る)という前提で推論をさせています。最初の完成画像から、ひたすら「Ctrl+z(つまりUndo)」を1000回繰り返したら、最後は白紙の画像になるという想定です。デフォルトでは「400、600、800、900、950、999」の6枚が指定されており、数値が大きいほど、白紙に近づいた状態を推定して画像を作っていきます。そして指定した枚数の画像を推論し、生成します。

 このなかで抹茶もなかさんが「こんなことができるんだ」と驚かれていたのは、過程段階の画像を生成している最中に、最初の画像を介入させられるということ。つまり、デノイズ途中の画像に「完成した画像」をはさむことで、最初の画像に近いものを常に生成し続けられるようにコントロールしているのではないかというわけです。

ステップ2の生成事例。最初の完成画像と最後の白紙が指定されており、後になるほど、下描き状態になっていく

生成は完全でランダムで行われるため、シード値を変えるだけで、生成されるキーフレームはまったく変わってしまう。これは失敗例とも呼べるもので、動画を生成しても、白い画面が大半の動画ができあがる

生成した画像同士を“中割”的につないでいく

 そして次にマルチフレームモデルを使い、画像と画像の間を補間して動画にする形で画像を追加生成します。ここで使われるのが、今年1月に登場した「Video Crafter」と呼ばれる系統の動画生成技術。ただ、基本部分はすべて実装しなおしたとイリヤさんは明らかにしています。さらに、この派生技術で5月に登場した「ToonCrafter」というアニメ系に特化したモデルがあるのですが、その技術の一部をそのまま使ってもいるようです。

 ToonCrafterは、2枚の画像を使い、その間を補完する画像を生成する技術。アニメの中割りを自動生成する可能性が模索されています。

 ただ、日本では発表当初はあまり話題にならなかった技術です。アニメの中割を本格的にやらせるには、全然違う絵が出してしまったり、アニメーションのパターンが少なく、きれいに出ない傾向があり、まだまだ実用的には感じられなかったためです。イリヤさんは、これをイラストの作成過程という、対象がほとんど動かないというものに使うことで効果的にすることを思いついたようです。そこにタイ厶ラプス的なランダムさを混ぜることで、逆により真実味を感じさせる動画になるのだろうと。

 最終的にそれをつないで出力すると、あたかもタイムラプス動画が作られたように見えるというのがPaints-Undoのからくりです。実際のところは、ToonCrafterが簡単に破綻するように、人間が描くタイムラプスとはかなり違ったものができあがり、破綻する場合も多いのですが、一見破綻してもわかりにくい動画であるために、真実性が感じられるようになっているのがミソです。

ステップ3は、キーフレームの画像と画像の間を16コマが中割のように生成される。最終的には、それらが結合されて動画になる

タイムラプス動画で学習?

 完全に筆者の推測ではあるのですが、イリヤさんが作り上げた2つのモデルは、ネット上に公開されている絵を描くタイムラプス動画を使って学習させたのかなという予感があります。かなり様々な独自改造が施されているようなのですが、それでも、これは実際のタイムラプス動画を学習に使わないと生み出せないのではないかと思えるからです。

▲筆者が別の動画生成AIサービスLuma AI Dream Machineで、塗りがない状態と着彩画像を試しに設定してみて作成した動画。色を塗る効果は出ているが、着色過程を再現しているとはまったく言えない。このサービスではタイムラプス動画を学習していないように思える

 連載第62回で紹介した「MagicTime」のように、タイムラプス風の動画を生成する研究は2024年に入って出てきています。 タイムラプス動画を学習させれば、タイムラプス風の動画を生成することが実際に可能であることはすでに証明されています。MagicTimeはタイムラプス風の動画を約2200個学習させて作られおり、まだまだ品質には限界があるものの、植物の成長や、氷の融解、「マインクラフト」の建物建設の動きといった、物理法則を再現しする動画の生成を実現に成功しています。

 ただ、次々に新しい研究トピックを探求し、少ない労力で効果的な手法を探っていくイリヤさんの性格を考えると、学習させたのはせいぜい数百点程度と限られるのではないかとも推測しています。何を動画の学習元としたのかは、動画生成AI各社でも権利問題が争点となっている部分なので、論文の発表時には明らかにする点かもしれませんが、現状は情報を意図的に公開していないのだろうと見ています。証拠はないので、確定とは言えませんが。

カテゴリートップへ

この連載の記事
ピックアップ