中国のZ.AIが4月7日に発表した次世代モデル「GLM-5.1」は、最大8時間にわたり単一タスクを自律的に継続し、計画から実行、検証、改善、最終成果の完成までを一貫して担う能力を持っているという。
特にソフトウェア開発領域に強みを持ち、SWE-Bench Proでは58.4という最高水準のスコアを記録し、GPT-5.4やClaude Opus 4.6、Gemini 3.1 Proなどの競合モデルを上回った。リポジトリ生成や実環境でのターミナル作業など、実務に近いタスクでも高い性能を示している。
従来のAIモデルは短時間で既知の手法を適用し、その後は改善が頭打ちになる傾向があったのに対し、GLM-5.1は長時間にわたり試行錯誤を継続し、結果を積み上げていくという点が特徴だ。問題を分解し、実験して、結果を分析し、戦略を修正するというループを自律的に繰り返し、数百回から数千回規模の反復でも性能向上を続ける。
ベクトルデータベースの最適化では600回以上の反復を通じて処理性能を約6倍に引き上げた。さらにGPUカーネル最適化では3.6倍の高速化を達成し、従来の自動最適化技術を大きく上回ったとしている。
また、Linux風デスクトップ環境をウェブアプリとして構築する課題では、多くのモデルが初期段階で作業を終えるのに対し、GLM-5.1は8時間にわたり改善を続け、ファイルブラウザやターミナル、アプリ群を備えた完成度の高いシステムへと発展させた。自ら不足点を判断し、改良を積み重ねる能力が長時間実行の中で発揮された形だ。
本記事はアフィリエイトプログラムによる収益を得ている場合があります







