このページの本文へ

中国テック事情:話題の動画生成AI「Kling」を試してみた

2024年06月25日 07時00分更新

文● Zeyi Yang

  • この記事をはてなブックマークに追加
  • 本文印刷
生成された動画のサンプル / KLING

画像クレジット:生成された動画のサンプル / KLING

中国のテック企業・快手(クアイショウ)が動画生成モデル「Kling」をリリースし、話題になっている。TikTokなどに投稿するショートクリップの制作方法を一変させるかもしれない。

この記事は米国版ニュースレターを一部再編集したものです。

「快手(クアイショウ)」という名前に馴染みがないかもしれないが、この中国企業はつい先日、大きなマイルストーンを達成した。テキストから動画を生成する人工知能(AI)モデルを初めてリリースし、一般ユーザーが自由にテストできるようにしたのだ。

6億人以上のアクティブユーザーを持つショート動画プラットフォームの快手は、6月6日、この新しいツール「Kling(クリング)」を発表した。オープンAIの「Sora(ソラ)」のように、Klingは「フレームレート30fps、動画解像度最大1080pで最長2分」の動画を生成することができると、同社はWebサイトで説明している

しかし、オープンAIのSoraが発表から4カ月経った今でも一般公開されていないのとは異なり、Klingはすぐにモデルを試せるようになっている。

私も実際に試してみた1人だ。快手の動画編集ツールをダウンロードして、中国の電話番号でサインアップした後、待機リストへ登録し、快手のユーザー・フィードバック・グループを通じて追加フォームへの記入を済ませると、Klingにアクセスできた。このモデルは、すべて英語で書かれたプロンプト(指示テキスト)を処理することはできないものの、使用したいフレーズを中国語に翻訳するか、中国語の単語を1つか2つ含めた英語交じりのプロンプトを利用すれば英語ユーザーでも利用できる。

ではさっそく、Klingで生成した結果をいくつか紹介しよう。Soraが生成した東京のストリートシーン庭を突き進む猫の印象的なデモ映像を覚えているだろうか?これがKlingの生成した映像だ。

プロンプト:雪に覆われた美しい東京の街がにぎわっている。カメラはにぎわう街の通りを移動しながら、美しい雪景色を楽しんだり、近くの売店で買い物をしたりする数人の人々を追う。ゴージャスな桜の花びらが、雪の結晶とともに風に舞っている。
プロンプト:温かみのある光を放つネオンとアニメーション表示の街頭看板でいっぱいの東京の通りを、1人のスタイリッシュな女性が歩いている。その女性は黒いレザージャケットに赤いロングドレス、黒いブーツを身につけ、黒いハンドバッグを持っている。彼女はサングラスをかけ、赤い口紅を塗っている。彼女は自信に満ち、さりげない様子で歩いている。通りは濡れていて光が反射し、色とりどりの照明を鏡のように映す効果を生み出している。多くの歩行者が歩き回っている。
プロンプト:白とオレンジの虎柄の猫が、何かを追いかけるように、鬱蒼とした庭を楽しそうに突き進んでいるのが見える。その猫は両目を大きく嬉しそうに開いて小走りに進み、枝や花や葉を見渡しながら歩く。猫は植物の間を通り抜ける狭い道を進む。このシーンは地表面から見たアングルで撮影され、猫に密着してその姿を追っており、低く親密な視点の映像になっている。画像は、温かみのある色調とざらざらした質感を持ち、映画のようである。上方の葉や植物の間から降り注ぐ日光が温かみのあるコントラストを生み出し、猫のオレンジ色の毛を際立たせている。被写界深度の浅い、クリアでシャープなショットである。

DALL-E(ダリー)の馬に乗った宇宙飛行士の画像を覚えているだろうか?私はKlingに動画バージョンも生成するように頼んだ。

プロンプト:宇宙で馬に乗っている1人の宇宙飛行士。

称賛に値する点がいくつかある。どの動画もプロンプトから大きく逸脱していないし、カメラのパンニング、揺れる葉、地球を背景に馬と宇宙飛行士が回転する方法など、物理的な動きも適切なようだ。生成処理にはそれぞれ3分ほどかかった。最速ではないが、十分受け入れられるスピードである。

しかし、明らかに不十分な点もある。720pフォーマットの動画はぼやけて粒子が粗いように見える。またKlingは、プロンプトの主要な要求を無視することがある。そして最も重要なこととして、現在のところ生成されるすべての動画の長さは5秒が上限となっており、ダイナミックさや複雑さに欠ける。

しかし、これらの結果をSoraのデモのような映像と比較するのは、本当に公平とは言えない。SoraのデモはオープンAIが厳選して公開しており、おそらく平均よりも良い結果が得られたものである。今回のKlingの動画は、私が各プロンプトを使って最初に試したものであり、結果を微調整するために「8K、フォトリアリズム」などのプロンプト・エンジニアリングキーワードを含めることはほとんどなかった。

Klingが生成した動画をもっと見たいなら、中国のオープンソースAIコミュニティがまとめたこの便利なコレクションをチェックするとよい。すばらしい結果と、あらゆる種類の失敗の両方が紹介されている。

Klingは全般的に十分な能力を持つと、北京在住のAIアーティスト、グイザンは言う。グイザンはこのAIモデルのリリース以来、テストを重ねており、SoraとKlingを直接比較して一連の記事にまとめてきた。Klingの欠点は、構図やカラーグレーディングといった結果の美的感覚にあると、グイザンは言う。「しかし、それは大きな問題ではありません。すぐに修正できます」と、グイザン(本人の希望によりネット上での別名)は本誌の取材に語った。

「モデルの核となる能力は、物理学と実際の自然環境をどのようにシミュレートするかという点にあります」とグイザンは言い、Klingはその点で良好であるとした。

Klingは、Soraと同じようなしくみで機能する。動画生成AIで伝統的に使われてきた拡散モデルをトランスフォーマーアーキテクチャと組み合わせることで、より大きな動画データファイルを理解し、より効率的に結果を生成するのに役立てているのである。

しかしKlingは、Soraをしのぐ重要な強みを持っているのかもしれない。中国ではドウイン(Douyin:抖音)の最も有名なライバルである快手は、数億人のユーザーを抱える巨大な動画プラットフォームを有しており、そこにはKlingの訓練に使える信じられないほど大量の貴重な動画データがアップロードされている。快手は本誌の問い合わせに対し、「Klingは業界標準に従い、世界中のインターネットで公開されている利用可能なデータを使い、モデルを訓練しています」と回答した。しかし、快手は訓練データの詳細については詳しく説明しなかった(オープンAIもSoraについて同様の対応しかしておらず、知的財産権保護に関する懸念を引き起こしている)。

このモデルをテストした結果、Klingの有用性に関する最大の限界は、5秒の動画しか生成できないことだと感じた。

「動画が長ければ長いほど、モデルがハルシネーション(幻覚)を起こしたり、一貫性のない結果を生成したりする可能性が高くなります」と、北京の清華大学でAIとメディアを研究するシェン・ヤン教授は話す。その限界のせいで、このテクノロジーは映画業界よりもショート動画業界に大きな影響を与えるだろうと、シェンは言う。

縦長の短い動画(スマホでの視聴を想定したもの)は通常、数秒で視聴者の注意を引き付ける。シェンによれば、中国のティックトック(TikTok)のようなプラットフォームは、何人の人がスクロールして動画から離れる前に最初の3~5秒を見つめるかによって、その動画が成功しているかどうか評価することが多いという。そのため、AIが生成した5秒しかない高品質の動画クリップは、ショート動画クリエーターにとってゲームチェンジャーになる可能性がある。

グイザンも、AIが短編動画のコンテンツ制作現場を混乱させる可能性があることに同意する。短期的には生産性を高めるツールとしてクリエイターに利益をもたらすだろうが、長期的には快手やドウインなどのプラットフォームが動画制作を引き継ぎ、ユーザーに応じてカスタマイズされたコンテンツを直接生成するようになることで、プラットフォームのスタークリエーターへの依存度が低下することをグイザンは懸念している。

このテクノロジーがそのレベルまで進歩するにはまだしばらく時間がかかるかもしれないが、テキストから動画を生成するツールの分野は今、ますます大きな話題になりつつある。Klingのリリースから1週間後、カリフォルニア州のスタートアップ企業「ルマAI(Luma AI)」も、一般利用向けに同様のモデルをリリースした。動画生成分野の有名スタートアップ企業「ランウェイ(Runway)」は、自社のモデルをより強力にする大幅なアップデートを小出しに発表している。快手の最大のライバルであるバイトダンスもまた、近日中のリリースを目指して生成動画ツールに取り組んでいると伝えられる。「今年末までに、私たちが利用できる多くの選択肢が登場するでしょう」と、グイザンは言う。

私はKlingに、「誰もが自分のニーズに応じて素早く動画クリップを生成できる」ようになるときの社会がどのようなものか、動画を生成するように頼んだ。その結果がこれである。手の表現は見事なものだが、質問には答えていない。残念。

プロンプト:快手のKlingモデルがリリースされたことにより、ショート動画制作への参入障壁が下がり、ショート動画業界に大きな影響をもたらした。誰もが自分のニーズに応じて素早く動画クリップを生成することができる。そのようになった時の社会がどんな姿になっているか示してください。

中国関連の最新ニュース

1.新たな調査により、米軍が2020年と2021年にソーシャルメディアにおいて、反ワクチンのプロパガンダ投稿キャンペーンを密かに実施していたことが明らかになった。東南アジア諸国で中国製の新型コロナウイルスワクチンに対する不信感を植え付けることが目的だったという。(ロイター $

2.中国の裁判所が、中国での#MeToo運動の立ち上げを支援したジャーナリスト、ホアン・フュエチンに 対し、「国家権力転覆扇動罪」で懲役5年の判決を下した。(ワシントンポスト $

3.シーイン(Shein)のある幹部が、同社の企業価値が基本的に同社を米国企業にしていると述べた。しかし同社は現在、中国政府の気分を害さないように、その発言を隠そうとしている。(フィナンシャル・タイムズ $

4.中国が世界最大の粒子衝突装置の建設に近づきつつある。建設は2027年中にも始まるかもしれない。(ネイチャー

5. 中国政府は、欧州連合(EU)による電気自動車への関税引き上げに報復するため、欧州が豚肉輸出に対し不当な補助金を提供している疑いがあるとして調査を開始した。(ニューヨーク・タイムズ $

  • 食品に関連した話題:ドリアンに対する中国の需要が近年爆発的に伸びていることで、東南アジアにおいて60億ドル規模のビジネスが生まれ、ドリアン農園にするためジャングルやコーヒーの樹を伐採する農家も出てきている。(ニューヨーク・タイムズ $

ロスト・イン・トランスレーション

2012年に20代の中国人女性ジウメイが、「おやすみ」メールを1通1人民元(約0.14ドル)で送るサービスをネット上で販売し始めた。

中国のオンラインメディア「パーソネージ(Personage)」によると、ジウメイは12年にわたり、3つの携帯電話と4つの電話番号を使って50,000通以上のメッセージを送り続けている。顧客の中には、最も寂しい時や絶望的な気分の時に定期的に誰かと話したいと思い、自分自身のためにこのサービスを購入している者もいる。また、辛い状況にある友人や、連絡を絶った元恋人に対し、匿名でメッセージを送るために購入している者もいる。

このビジネスはあまり利益になっていない。ジウメイは本業に加えてこのビジネスから年間3,000元(410ドル)ほどの収入を得ているが、近年は利益がさらに減っている。それでもジウメイがこのビジネスを続けているのは、それらのメッセージを送る行為が毎晩の儀式になっているからだ。顧客のためだけでなく、ジウメイ自身のための行為にもなっており、孤独や困難を感じるときに自分自身に慰めを与えている。

カテゴリートップへ

アスキー・ビジネスセレクション

ASCII.jp ビジネスヘッドライン

ピックアップ