画像クレジット:生成された動画のサンプル / KLING
中国のテック企業・快手(クアイショウ)が動画生成モデル「Kling」をリリースし、話題になっている。TikTokなどに投稿するショートクリップの制作方法を一変させるかもしれない。
この記事は米国版ニュースレターを一部再編集したものです。
「快手(クアイショウ)」という名前に馴染みがないかもしれないが、この中国企業はつい先日、大きなマイルストーンを達成した。テキストから動画を生成する人工知能(AI)モデルを初めてリリースし、一般ユーザーが自由にテストできるようにしたのだ。
6億人以上のアクティブユーザーを持つショート動画プラットフォームの快手は、6月6日、この新しいツール「Kling(クリング)」を発表した。オープンAIの「Sora(ソラ)」のように、Klingは「フレームレート30fps、動画解像度最大1080pで最長2分」の動画を生成することができると、同社はWebサイトで説明している。
しかし、オープンAIのSoraが発表から4カ月経った今でも一般公開されていないのとは異なり、Klingはすぐにモデルを試せるようになっている。
私も実際に試してみた1人だ。快手の動画編集ツールをダウンロードして、中国の電話番号でサインアップした後、待機リストへ登録し、快手のユーザー・フィードバック・グループを通じて追加フォームへの記入を済ませると、Klingにアクセスできた。このモデルは、すべて英語で書かれたプロンプト(指示テキスト)を処理することはできないものの、使用したいフレーズを中国語に翻訳するか、中国語の単語を1つか2つ含めた英語交じりのプロンプトを利用すれば英語ユーザーでも利用できる。
ではさっそく、Klingで生成した結果をいくつか紹介しよう。Soraが生成した東京のストリートシーンや庭を突き進む猫の印象的なデモ映像を覚えているだろうか?これがKlingの生成した映像だ。
DALL-E(ダリー)の馬に乗った宇宙飛行士の画像を覚えているだろうか?私はKlingに動画バージョンも生成するように頼んだ。
称賛に値する点がいくつかある。どの動画もプロンプトから大きく逸脱していないし、カメラのパンニング、揺れる葉、地球を背景に馬と宇宙飛行士が回転する方法など、物理的な動きも適切なようだ。生成処理にはそれぞれ3分ほどかかった。最速ではないが、十分受け入れられるスピードである。
しかし、明らかに不十分な点もある。720pフォーマットの動画はぼやけて粒子が粗いように見える。またKlingは、プロンプトの主要な要求を無視することがある。そして最も重要なこととして、現在のところ生成されるすべての動画の長さは5秒が上限となっており、ダイナミックさや複雑さに欠ける。
しかし、これらの結果をSoraのデモのような映像と比較するのは、本当に公平とは言えない。SoraのデモはオープンAIが厳選して公開しており、おそらく平均よりも良い結果が得られたものである。今回のKlingの動画は、私が各プロンプトを使って最初に試したものであり、結果を微調整するために「8K、フォトリアリズム」などのプロンプト・エンジニアリングキーワードを含めることはほとんどなかった。
Klingが生成した動画をもっと見たいなら、中国のオープンソースAIコミュニティがまとめたこの便利なコレクションをチェックするとよい。すばらしい結果と、あらゆる種類の失敗の両方が紹介されている。
Klingは全般的に十分な能力を持つと、北京在住のAIアーティスト、グイザンは言う。グイザンはこのAIモデルのリリース以来、テストを重ねており、SoraとKlingを直接比較して一連の記事にまとめてきた。Klingの欠点は、構図やカラーグレーディングといった結果の美的感覚にあると、グイザンは言う。「しかし、それは大きな問題ではありません。すぐに修正できます」と、グイザン(本人の希望によりネット上での別名)は本誌の取材に語った。
「モデルの核となる能力は、物理学と実際の自然環境をどのようにシミュレートするかという点にあります」とグイザンは言い、Klingはその点で良好であるとした。
Klingは、Soraと同じようなしくみで機能する。動画生成AIで伝統的に使われてきた拡散モデルをトランスフォーマーアーキテクチャと組み合わせることで、より大きな動画データファイルを理解し、より効率的に結果を生成するのに役立てているのである。
しかしKlingは、Soraをしのぐ重要な強みを持っているのかもしれない。中国ではドウイン(Douyin:抖音)の最も有名なライバルである快手は、数億人のユーザーを抱える巨大な動画プラットフォームを有しており、そこにはKlingの訓練に使える信じられないほど大量の貴重な動画データがアップロードされている。快手は本誌の問い合わせに対し、「Klingは業界標準に従い、世界中のインターネットで公開されている利用可能なデータを使い、モデルを訓練しています」と回答した。しかし、快手は訓練データの詳細については詳しく説明しなかった(オープンAIもSoraについて同様の対応しかしておらず、知的財産権保護に関する懸念を引き起こしている)。
このモデルをテストした結果、Klingの有用性に関する最大の限界は、5秒の動画しか生成できないことだと感じた。
「動画が長ければ長いほど、モデルがハルシネーション(幻覚)を起こしたり、一貫性のない結果を生成したりする可能性が高くなります」と、北京の清華大学でAIとメディアを研究するシェン・ヤン教授は話す。その限界のせいで、このテクノロジーは映画業界よりもショート動画業界に大きな影響を与えるだろうと、シェンは言う。
縦長の短い動画(スマホでの視聴を想定したもの)は通常、数秒で視聴者の注意を引き付ける。シェンによれば、中国のティックトック(TikTok)のようなプラットフォームは、何人の人がスクロールして動画から離れる前に最初の3~5秒を見つめるかによって、その動画が成功しているかどうか評価することが多いという。そのため、AIが生成した5秒しかない高品質の動画クリップは、ショート動画クリエーターにとってゲームチェンジャーになる可能性がある。
グイザンも、AIが短編動画のコンテンツ制作現場を混乱させる可能性があることに同意する。短期的には生産性を高めるツールとしてクリエイターに利益をもたらすだろうが、長期的には快手やドウインなどのプラットフォームが動画制作を引き継ぎ、ユーザーに応じてカスタマイズされたコンテンツを直接生成するようになることで、プラットフォームのスタークリエーターへの依存度が低下することをグイザンは懸念している。
このテクノロジーがそのレベルまで進歩するにはまだしばらく時間がかかるかもしれないが、テキストから動画を生成するツールの分野は今、ますます大きな話題になりつつある。Klingのリリースから1週間後、カリフォルニア州のスタートアップ企業「ルマAI(Luma AI)」も、一般利用向けに同様のモデルをリリースした。動画生成分野の有名スタートアップ企業「ランウェイ(Runway)」は、自社のモデルをより強力にする大幅なアップデートを小出しに発表している。快手の最大のライバルであるバイトダンスもまた、近日中のリリースを目指して生成動画ツールに取り組んでいると伝えられる。「今年末までに、私たちが利用できる多くの選択肢が登場するでしょう」と、グイザンは言う。
私はKlingに、「誰もが自分のニーズに応じて素早く動画クリップを生成できる」ようになるときの社会がどのようなものか、動画を生成するように頼んだ。その結果がこれである。手の表現は見事なものだが、質問には答えていない。残念。
中国関連の最新ニュース
1.新たな調査により、米軍が2020年と2021年にソーシャルメディアにおいて、反ワクチンのプロパガンダ投稿キャンペーンを密かに実施していたことが明らかになった。東南アジア諸国で中国製の新型コロナウイルスワクチンに対する不信感を植え付けることが目的だったという。(ロイター $)
2.中国の裁判所が、中国での#MeToo運動の立ち上げを支援したジャーナリスト、ホアン・フュエチンに 対し、「国家権力転覆扇動罪」で懲役5年の判決を下した。(ワシントンポスト $)
3.シーイン(Shein)のある幹部が、同社の企業価値が基本的に同社を米国企業にしていると述べた。しかし同社は現在、中国政府の気分を害さないように、その発言を隠そうとしている。(フィナンシャル・タイムズ $)
4.中国が世界最大の粒子衝突装置の建設に近づきつつある。建設は2027年中にも始まるかもしれない。(ネイチャー)
5. 中国政府は、欧州連合(EU)による電気自動車への関税引き上げに報復するため、欧州が豚肉輸出に対し不当な補助金を提供している疑いがあるとして調査を開始した。(ニューヨーク・タイムズ $)
- 食品に関連した話題:ドリアンに対する中国の需要が近年爆発的に伸びていることで、東南アジアにおいて60億ドル規模のビジネスが生まれ、ドリアン農園にするためジャングルやコーヒーの樹を伐採する農家も出てきている。(ニューヨーク・タイムズ $)
ロスト・イン・トランスレーション
2012年に20代の中国人女性ジウメイが、「おやすみ」メールを1通1人民元(約0.14ドル)で送るサービスをネット上で販売し始めた。
中国のオンラインメディア「パーソネージ(Personage)」によると、ジウメイは12年にわたり、3つの携帯電話と4つの電話番号を使って50,000通以上のメッセージを送り続けている。顧客の中には、最も寂しい時や絶望的な気分の時に定期的に誰かと話したいと思い、自分自身のためにこのサービスを購入している者もいる。また、辛い状況にある友人や、連絡を絶った元恋人に対し、匿名でメッセージを送るために購入している者もいる。
このビジネスはあまり利益になっていない。ジウメイは本業に加えてこのビジネスから年間3,000元(410ドル)ほどの収入を得ているが、近年は利益がさらに減っている。それでもジウメイがこのビジネスを続けているのは、それらのメッセージを送る行為が毎晩の儀式になっているからだ。顧客のためだけでなく、ジウメイ自身のための行為にもなっており、孤独や困難を感じるときに自分自身に慰めを与えている。