参考写真(トリミング) aboodi vesakaran | Unsplash
中国Alibaba Cloudが1月23日、推論特化のAIモデル「Qwen3-Max-Thinking」を公開。1月27日には同じく中国Moonshot AIが「Kimi K2.5」を公開した。いずれも「GPT-5.2」や「Gemini 3 Pro」を凌ぐと主張し、年明け早々に中国勢の“フロンティア級”アピールが続いた。
Alibaba Cloudの「Qwen3-Max-Thinking」は、推論時に検索やWebページ抽出、コード実行といった内蔵ツールを“思考の途中に挟み込む”形で使える点が特徴。価格設定は入力100万トークンあたり1.20ドル、出力100万トークンあたり6.00ドルで、推論モデルとして“高いが手が届く”レベルと評価されている。性能は、ベンチマークテストのHumanity’s Last Exam(HLE)において、Web検索ツールを組み合わせた条件ではGemini 3 ProやGPT-5.2-Thinkingを上回ったと主張している。
一方、Moonshot AIの「Kimi K2.5」は画像や動画まで含めたネイティブなマルチモーダルを前提としているのが特徴。アプリのUI設計図やワークフローの動画をもとにしたコーディングが可能となる。同社ではK2.5を「オープンソースの最強モデル」と位置づけ、前述のHLEやBrowseComp、MMMU Pro、SWE-bench Verifiedなど複数指標のスコアを列挙している。なかでも、エージェント系のベンチマークにおいてはGPT-5.2やGemini 3 Proを上回る成績をアピールしている。
QwenとKimiは、いずれも「推論モデル+ツール+エージェント」を組み合わせた形で実効的な性能を強くアピールしている。これまでのモデル単独の性能から一歩進めて、複雑なタスクを最後までやりきったり、画像や動画を工程に組み込んだ作業をしたり、より実務寄りのエージェント性能に競争軸を移そうとしている。






