9Bなのに120B超え!?　Qwen3.5-9BがローカルAIの常識を変えた

2026年03月20日 17時00分更新

文● 田口和裕

小型モデル群の使い分けガイド

モデル	パラメータ	用途	推奨環境
Qwen3.5-0.8B	0.8B	スマホ・IoT・軽量タスク	スマートフォン
Qwen3.5-2B	2B	エッジデバイス	Raspberry Pi等
Qwen3.5-4B	4B	バランス型	ラップトップ（8GB RAM〜）
Qwen3.5-9B	9B	スイートスポット	16GB Mac / 12GB GPU

　Smallシリーズは0.8Bから9Bまで4サイズ展開だ。どれを選ぶかは、手元の環境次第になる。

　0.8Bと2Bはスマートフォンやラズベリーパイなど、リソースが極端に限られた環境向けだ。動作は軽快だが、複雑な推論や長文処理には向かない。定型的な応答やオフライン音声認識の後処理など、タスクが明確に絞られる場合に選択肢になる。

　4Bは8GB RAMのラップトップでも動く現実的なサイズだ。ただし、前のベンチマーク節で見たように、9Bとの性能差は無視できない。GPQA DiamondやIFEvalで9Bが4Bを5ポイント前後上回っており、少し複雑な質問や長めの文章を扱うと差が出てくる。

　結論として、16GB統合メモリのMacや12GB VRAMのGPUを持っているなら、9Bを選ばない理由はない。Q4量子化で約5〜6GBに収まるため、16GBのメモリ環境なら余裕で動く。性能・サイズ・動作環境のバランスが最もとれたモデルだ。M2 MacBook Airはもちろん、8GB以上のVRAMを持つGPUであれば実用的に動作する。

　8GBのMacでも4B（Q4量子化で約3GB）なら十分動作する。ただし日常的に使うなら、16GBへの投資を検討する価値はある。ローカルLLMの性能が9Bと4Bでこれだけ違うのであれば、なおさらだ。

ローカルLLMはここまで来た

　1年前なら80Bクラスが前提だった要約やコード生成も、いまは9Bクラスで現実的にこなせる場面が増えてきた。実際に触ってみると「GPT-4クラスがローカルで動いている」と言っても大げさではない感覚だ。Qwen3.5-9Bの登場は、小型モデルでも実用に届く段階に入りつつあることを示している。

　ライセンス面でも敷居は低い。Qwen3.5シリーズはApache 2.0で公開されており、個人開発から企業利用まで追加コストなしで組み込める。公開直後から量子化版やファインチューンが出回り、用途に応じた選択肢もすでに揃っている。

　動作環境のハードルも下がった。かつてはGPUのVRAMが前提だったが、Q4量子化した9Bモデルなら十分なメモリーを備えたPCでCPUだけでも動く。ローカルで完結する運用が、現実的な選択肢になりつつある。

　性能、ライセンス、実行環境——この三つの条件が揃ったことで、ローカルLLMは「試しに触ってみるもの」から一歩先へ進んだ。用途を選べば、実務に使える段階に入っている。

田口和裕（たぐちかずひろ）

　1969年生まれ。ウェブサイト制作会社から2003年に独立。雑誌、書籍、ウェブサイト等を中心に、ソーシャルメディア、クラウドサービス、スマートフォンなどのコンシューマー向け記事や、企業向けアプリケーションの導入事例といったエンタープライズ系記事など、IT全般を対象に幅広く執筆。2019年にはタイのチェンマイに本格移住。
　新刊：発売中「生成AI推し技大全 ChatGPT＋主要AI 活用アイデア100選」、：https://amzn.to/3HlrZWa

■関連サイト