このページの本文へ

田口和裕の「ChatGPTの使い方!」 第37回

OpenAIのローカルAIを無料で試す RTX 4070マシンは普通に動いたが、M1 Macは厳しかった…

2025年08月08日 09時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

gpt-oss-20bの出力例 まずは自己紹介から

 それではいよいよローカルでgpt-oss-20bを動かしてみよう。まずは日本語でのやりとりが可能かどうかを確かめるため下記のプロンプトからスタート。

プロンプト:日本語で自己紹介して

 一瞬推論に入るが、すぐに回答を生成開始。ブラウザー経由のChatGPTと比べると多少ゆっくりではあるが、しっかりとした日本語で自己紹介をしてくれた。

 回答の末尾には生成速度などの統計が表示されている。これは、ローカルLLMがどの程度のスピードで応答を生成したか、どれくらいの長さのテキストを返したか、そしてどのように出力を終了したかを示す情報だ。

 たとえば「13.45 tok/sec」は1秒あたりに出力されたトークン数を意味し、この数値が大きいほど生成が速いことを示す。「335 tokens」は生成されたトークン(語や記号などの単位)の総数、「0.26s to first token」は最初の文字が返ってくるまでの時間で、応答の開始速度を表している。

 また、「Stop reason: EOS Token Found」は、文の終わりを示す特殊なトークン(EOS=End of Sequence)が出現したことで自然に出力が終了したことを意味する。他にも、指定したトークン数の上限に達した場合は「Length」、あらかじめ設定した文字列が出たときは「Stop Sequence」などと表示される。

 この統計は主に開発者やパワーユーザー向けの情報だが、応答速度や処理量の目安として知っておくと役に立つ。

 タスクマネージャーで回答生成中のマシンの状態を確認すると、GPUとCPUの双方に大きな負荷がかかっているのがわかる。GPUの使用率は75%、GPUメモリは12GB中10.1GBが専用メモリとして使用されている。これは、量子化済みの20Bモデルをフルに活用して推論をしている状況だと考えられる。

 一方、CPUの使用率は100%に達しており、すべてのコアがフル稼働している状態だ。ローカルLLMの実行中は、GPUによる推論処理に加えて、CPU側でも入出力の管理やトークンのバッファリングなどが並列的に行われるため、高負荷になりやすい。また、システムメモリ(RAM)も47.9GB中19.9GBが使用されており、モデルのロードやプロンプト処理に伴う一時的なワークスペースとして機能していると考えられる。

カテゴリートップへ

この連載の記事
ピックアップ