中国のSNS「快手(Kuaishou)」は、テキストから最大2分間の動画を生成できる動画生成モデル「可灵(Kling)」を開発。多数のサンプル動画を掲載するデモサイトを公開した。
テキストから最大2分間のフルHD動画を生成
A Chinese AI video generator just dropped before we got access to Sora
— Rowan Cheung (@rowancheung) June 6, 2024
Can generate 2-minute videos at 30fps, 1080p quality, available on the KWAI iOS app with a Chinese phone number
A few generations from their site:
1. pic.twitter.com/NEmWiqKHiO
快手(Kuaishou)は中国のショート動画共有プラットフォーム。「TikTok」の中国版である「Douyin(抖音)」の主要な競合だ。
Klingは、快手が自ら開発した「Large Vision Language Model(LVLM:画像処理可能な大規模言語モデル)」。効率的なトレーニングインフラと推論最適化により、最大2分間、30fpsのフルHD動画を生成できる。
また、時間と空間を組み合わせた独自開発のアテンションメカニズム(注意機構)により、複雑な時空間の動きをより正確にモデル化し、物理法則に従ったダイナミックで大きな動きのある動画を生成できるという。
5.
— Rowan Cheung (@rowancheung) June 6, 2024
A white cat driving in a car through a busy downtown street with tall buildings and pedestrians in the background pic.twitter.com/HvRgJ2PYWK
上記の動画は「一只白猫在车里驾驶,穿过繁忙的市区街道,背景是高楼和行人(白い猫が車を運転して、賑やかな市街地の道を通ります。背景には高層ビルや行き交う人々が見えます)」というプロンプトで生成されたという。
OpenAIが2月に発表したもののまだ一般には公開されていない動画生成モデル「Sora」を意識していることは明白だ。
さらに、「Stable Diffusion」の拡張機能「ControlNet」のように、元になる画像と動きを指示するモデル(ボーン)を組み合わせ、自由に「歌って踊れる」動画を合成する技術も公開されている。
利用には中国の電話番号が必要
Klingを利用するには、同社の動画共有アプリ「快影(おそらくiOSのみ)」をダウンロード。
起動したら「Al玩法」をタップ。
「AI生视频(AI映像生成)」のページが表示されたので「申请体验(申し込み)」をクリック。
中国の電話番号があればウェイティングリストに登録できるようだ。残念!!