【神機能1】リアルタイム音声対話
Google AI Studioで注目すべき機能の一つが、Gemini 2.5の「Native Audio Output」を活用した、音声で話しかけると自然な音声で返答してくれるリアルタイム音声対話機能だ。日本語を含む24言語以上に対応しているため、英語が苦手でも安心して利用できる。
競合のChatGPTにも「Advanced Voice Mode」という同等の機能があるが、有料プラン(月額約3000円)でも1日あたり約60分の使用制限がある。無料プランではさらに短く、具体的な上限は非公開だが、制限に達してしまうと低性能モードに自動的に切り替わるというなんとも使い勝手の悪い仕様になっている。
では実際に使ってみよう。Google AI Studioにログインし、左側サイドメニューから通常の「Chat」ではなく「Stream」をクリック。
「Stream」画面が表示されたので、画面右上から利用するモデルを選択しよう。
現在利用できるのは下記の3モデル。通常はデフォルトのGemini 2.5 Flash Preview Native Audio Dialogを選んでおけばよい。
Gemini 2.5 Flash Preview Native Audio Dialog:リアルタイム音声対話専用モデル。音声で話しかけて音声で返答を受け取れる
Gemini 2.5 Flash Exp Native Audio Thinking:音声対話に思考プロセス表示機能を追加したモデル。AIの推論過程を確認可能
Gemini 2.0 Flash 001:標準的なテキストベースの対話モデル。高速レスポンスが特徴
画面下部の「Talk(マイク)」アイコンをクリックして音声入力を開始すると、数秒後、AIが自然な日本語音声で回答する。
音声会話時、プロンプトウィンドウは下記のような表示になる。
会話ログはこのように表示される。後で聞き直すことも可能だ。
特筆すべきは感情認識対話機能だ。ユーザーの声に含まれる感情を検知し、楽しそうに話しかければ明るく返答し、困りながら相談すれば親身になって答えてくれる。画面共有機能により、作業中の資料を見せながら音声で質問することも可能だ。
ビジネスでは会議前の資料整理やプレゼン練習、外国人との会議での通訳代わりとして、日常では英会話の練習相手や、料理中・運転中など手が離せない状況での音声利用が便利だ。

この連載の記事
-
第42回
AI
ChatGPT、Gemini、Claude、Grokの違いを徹底解説!仕事で役立つ最強の“AI使い分け術”【2025年12月最新版】 -
第41回
AI
中国の“オープンAI”攻撃でゆらぐ常識 1兆パラ級を超格安で開発した「Kimi K2」 の衝撃 -
第40回
AI
無料でここまでできる! AIブラウザー「ChatGPT Atlas」の使い方 -
第39回
AI
xAI「Grok」無料プラン徹底ガイド スマホ&PCの使い方まとめ -
第38回
AI
【無料】「NotebookLM」神機能“音声概要”をスマホで使おう! 難しい論文も長〜いYouTubeも、ポッドキャスト化して分かりやすく -
第37回
AI
OpenAIのローカルAIを無料で試す RTX 4070マシンは普通に動いたが、M1 Macは厳しかった… -
第36回
AI
無料で「Gemini 2.5 Pro」が使える!グーグル「Gemini CLI」の使い方を簡単解説 -
第34回
AI
ローカルAI、スマホでサクッと動かせる グーグル「AI Edge Gallery」 -
第33回
AI
文章術としてのCursor入門 仕事で使うための実践編 -
第32回
AI
文章術としてのCursor入門 - この連載の一覧へ










