このページの本文へ

西田宗千佳の「AIトレンドトラッキング」 第12回

「Sora」は本当に革命か。実は多彩な動きを見せていた2月の生成AI業界

2024年03月07日 07時00分更新

文● 西田宗千佳 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

グーグルの高性能AIモデル搭載「Gemini Advanced」発表 (2月9日)

 見出しはGemini Advancedの発表が中心だが、ここでの発表の眼目は、グーグルが生成AI関連サービスのブランド名として「Bard」を捨てて「Gemini」に統一したこと、そして、有料プランであるグーグル Oneに、Gemini AdvancedなどのAI関連機能が使える「AI Premium」プランを追加したことだ。

 マイクロソフトにしろグーグルにしろ、生成AIサービスの開発があまりに急ピッチであるためか、サービス名が非常にわかりにくくなっている。

 マイクロソフトは秋に「Copilot」ブランドを導入して整理を始めたが、個人向けと企業向けでどう機能が違うのかなど、脳内で整理が必要だ。

 グーグルはLLMとして昨年「Gemini」を発表し、今月も機能アップを繰り返している。一方でチャットAIとしては「Bard」がブランドであったわけだが、今回「Gemini」に変え、アクセスのためのURLも「gemini.google.com」になった。

 サービスとしての生成AIが定着するのはこれからであり、そのためにもこの辺でサービスブランド名は固定しておく必要がある……ということかと思う。

 逆に言えば2023年は、そういう基本的な部分よりも先に技術を打ち出さねばならないタイミングだったわけだ。

控え目に言って革命。OpenAI、動画生成AIモデル「Sora」発表(2月16日)

 Soraの生成結果としてOpenAIから公開された動画は、どれも素晴らしい。プロンプトだけでこれらの動画が作れるのだとすれば革命であり、動画制作を変える……という意見が多い。

 たしかにすごいのだが、「控え目に言って革命」かというと異論はある。筆者は「すごいが革命ではない」派である。

 生成AIで動画を作る際、コマ同士での描画一貫性を持たせるのは大変だった。各社切磋琢磨し、かなり動画として自然なものを作れるようになってきた。そこで出てきたSoraは、一気に水準を上げた。この点は間違いなく優れている。

 ただ、難点はいくつもある。

 1つは、「まだ正確ではない」こと。文字などがちゃんと描写できないのはその一例だ。それ以外にも、建物の高さや動物の足の動きなど、よく見ると細部に不自然なところはたくさんある。

 関連することとして、「Soraは物理法則を理解して、ワールドシミュレーターのように機能しているのか」という議論がある。これについては、OpenAIのコメントを読む限り「まだ到達していない」と判断できる。そのために正確でない描写も生まれているのだ。LLMをワールドシミュレーターのように扱って動画を作成するには、まだいくつかのハードルが残されているように思える。

 最後に「修正が困難である」こと。正確でない部分があっても、簡単に修正できるなら問題はなく、動画作成に活用がしやすい。生成AIは画質だけでなく「一貫性を伴った修正可能性」を競う段階にきている。Soraはそうした機能性について言及されておらず、道具としての評価が難しい。

 そう考えると、Soraは「とても素晴らしい成果ではあるが、革命的な動画生成AIであるとまでは言えない」という結論に達する。

 もちろん、昨今の生成AI界隈は、そんな意見がすぐにひっくり返る可能性もあるくらい進化が速いのが特徴。だから「できない」という未来予測はしないことにしておきたい。

カテゴリートップへ

この連載の記事
ピックアップ