このページの本文へ

前へ 1 2 3 次へ

COMPUTEX TAIPEI 2025レポート 第30回

無言を検知して話題を振る! AIによるストリーマー支援とNVIDIAの画質向上技術が秀逸すぎる

2025年05月23日 10時00分更新

文● 中山 智 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

クリエイティブワーク向けAI活用

 RTX 50シリーズは、ゲーミングだけでなく、クリエイティブワーク向け機能も強化された。特に、映像編集分野では、近年普及が進む4:2:2フォーマットのハードウェアエンコードおよびデコード機能がRTX 50シリーズに追加された。4:2:2フォーマットの映像は高画質だが、ハードウェアアクセラレーションがない場合、4Kストリームを複数再生する際にスタッター(かくつき)が発生しやすい。

 デモでは、4Kの4:2:2ストリーム4本を再生する際に、フル装備のMacBook M4 Maxが8 FPS程度だったのに対し、RTX 5090搭載ノートPCは60 FPSでのスムーズな再生を実現し、ハードウェアアクセラレーションの重要性を示した。

 また、RTX 5090ではトリプルエンコーダーを搭載し、ビデオ編集のエクスポート時間を大幅に短縮できる。同じビデオのエクスポート時間を比較したデモでは、RTX 5090が32秒だったのに対し、MacBook M4 Maxは1分かかり、RTX 5090が約2倍高速であることが示された。

 さらに、生成AI(GenAI)を建築ビジュアライゼーションに応用したデモも実施された。Stable Diffusionを使用し、RTXアクセラレーションによってワークフローが100倍高速化され、ほぼリアルタイム(約3秒)で画像の生成が可能になった。テキストプロンプトだけでなく、簡単なスケッチを入力として読み取り、AIがそれを反映した画像の生成にも対応。これは、建築家だけでなく、部屋の模様替えをイメージしたい一般ユーザーにとっても、アイデアを素早く視覚化するのに役立つツールとなるとのこと。

 より複雑なGenAIワークフローを扱うプロフェッショナル向けには、Blueprintsが紹介された。これはNVIDIAが提供するフレームワークで、テキストイメージモデルと、Blenderのビューポートから生成される深度マップを組み合わせて画像を生成するもの。テキストプロンプトが「なにを」表現するかを指示し、深度マップがシーン内のオブジェクトの「どこに」配置するかを指示することで、より制御性の高い画像生成が可能になる。

 このブループリントは、NVIDIA NIMを使用して最適化されており、例えば大規模なテキストイメージモデルであるFluxをNIMで量子化することで、VRAM使用量を23GBから9~10GBに削減し、推論速度を3倍に高速化している。これにより、通常はリソースを多く消費するGenAIワークフロー全体をオンデバイスで実行できる。

 このBlueprintsは柔軟で拡張可能であり、デモではシーンに配置する3Dオブジェクトを生成する機能が追加されている例が示された。ユーザーはLLM(Llama 3.18B NIMを使用)にアイデアを伝えることで、オブジェクトの推奨や、それに適したテキストプロンプトを生成してもらえる。さらに、NVIDIA独自のモデルを使用して高速な画像プレビュー(9枚/3秒)を生成し、最終的な3Dオブジェクトを約20〜25秒で生成する。

 これにより、アイデア出しから、必要な3Dオブジェクトの生成、そしてそれを用いたシーン全体の画像生成までの一連のワークフローを短時間で実行可能。オブジェクトの追加やプロンプトの変更によって、シーン全体の雰囲気(例えば、元のシーンを台北のナイトマーケット風に変更するなど)を容易に変更できる様子が示された。このBlueprintsは、複雑なGenAIワークフローの開始点として提供され、ユーザーが自身のニーズに合わせて構築・拡張することを想定している。

G assist - AIによる新しいPC操作

 NVIDIA App内に搭載されるAIエージェント「G-Assist」はGPU上で動作するSLM(Small Language Model)とASRモデルによるローカルAIコンピューティングを特徴とし、音声またはテキストによる操作が可能。基本的な機能として、ゲームライブラリー内のゲームを認識して起動することなどができる。

 G-Assistの最も重要な拡張機能は、Pluginアーキテクチャーの導入だ。これにより、他のアプリケーションのAPIを呼び出し、それらのアプリケーションと連携することが可能になる。デモでは、以下のような連携例が紹介された。

 まず、Discordプラグインでは、ゲームをプレイしている最中に音声コマンドを使ってDiscordアプリのAPIを呼び出し、特定のチャットにメッセージを投稿する様子が示された。次に、プラグイン経由でGoogle Geminiのような外部LLMのAPIを呼び出すことで、ゲーム大会のスケジュールや優勝予想といった最新情報を取得可能になる。

 G-Assistは文脈を理解する能力も持ち合わせており、これらの情報に関するフォローアップの質問にも対応。さらに、ルーティン実行機能も利用できる。これは、ユーザーが「Game Time」のようなカスタムルーティンを事前に定義しておくことで、単一の音声コマンドでデスクファンのオン、ゲーム関連ニュースのメール送信、Spotifyの操作といった複数のアクションを一括で実行できるようにするものだ。

 Signal RGBプラグイン連携のデモでは、Signal RGBのようなシステム設定ユーティリティと連携し、自然言語処理を使ってシステムのRGBエフェクトの変更や明るさの調整などを実行するもの。これにより、複雑な設定画面を探す手間を省き、AIがユーザーの意図を解釈してPCを操作するという、PC操作の新しい方法を示唆している。

 これらのPluginアーキテクチャーは非常に強力であり、APIを持つさまざまなアプリケーションやサービスとの連携が可能になる。NVIDIAは、このPluginアーキテクチャーのテンプレートをChatGPTにも提供しており、ユーザーがChatGPTを使ってG-Assist向けのプラグインのPythonコードを生成できるようにすることで、プラグイン開発を支援する取り組みを進めている。

【関連サイト】

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン