このページの本文へ

田口和裕の「ChatGPTの使い方!」 第37回

OpenAIのローカルAIを無料で試す RTX 4070マシンは普通に動いたが、M1 Macは厳しかった…

2025年08月08日 09時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

情報カットオフ日時は2023年12月

 もちろんLLMの悪癖であるハルシネーションもしっかり観測できた。

プロンプト:2024年のMLBワールドシリーズの結果を教えて

 推論過程を読むと、「2024年のワールドシリーズはまだ行われていない(現在は2025年)。」と矛盾したことが書かれている。gpt-ossの情報カットオフ日時は2023年12月のため、それ以降のことを聞かれるとこのような挙動になりそうだ。

 ちなみに2024年のロサンゼルス・ドジャースの相手はヒューストン・アストロズではなくニューヨーク・ヤンキースだ。--

 なお、プロンプト入力欄の下に表示されている「Reasoning Effort(推論レベル)」をクリックすると、推論の性能をLow / Medium / Highの3段階から選ぶことができる。Highにするほど複雑な計算や条件分岐を伴う質問に強くなるが応答速度は遅くなる。逆にLowは高速だが推論力は控えめで日常会話や簡単な質問向きだ。環境にあわせて選択しよう。

推論レベルを3段階で指定できる

120Bチャレンジは……

 gpt-oss 20Bは、LM Studioを使ってローカルで動かせることが確認できた。では、GPU 80GBクラスが必要とされる120Bモデルはどうだろうか。

 LM Studioの初期表示には20Bモデルしか出てこないが、「gpt-oss」で検索すると、Hugging FaceにアップされたGGUF形式の120Bモデルがいくつか見つかる。今回は、lmstudio communityが提供する「gpt-oss-120b-GGUF(63.39GB)」を試してみた。

 GGUF(GPT-Generated Unified Format)は、ローカル実行向けツールで扱いやすいように変換されたモデル形式だ。量子化によってメモリ消費は抑えられるが、このモデルの場合、OpenAIが配布している元のチェックポイント(約60.8 GiB)よりもやや大きく、ファイルサイズが小さいとはいえない。

 1時間以上かけてダウンロードは完了したが、モデルのロードは失敗。エラーメッセージを見ると「GPU(CUDA)メモリが足りないため、バッファの確保に失敗した」とある。

 設定を変更しながら再試行してみたが、今回の環境では120Bモデルのロードには至らなかった。ただしこのモデルはOSSであり、今後より軽量な蒸留版や分割ロード対応の形式が登場すれば、ローカル実行も現実的になるはずだ。

LLMロード設定画面

カテゴリートップへ

この連載の記事
ピックアップ