さくらインターネットは、生成AI向け推論API基盤「さくらのAI Engine」を、2025年9月24日より一般提供開始した。「さくらのクラウド」のコントロールパネルから利用でき、LLMをはじめとする基盤モデルを、API経由でアプリケーションへ手軽に組み込むことができる。

さくらのAI Engineでは、生成AI向けクラウドサービス「高火力」を基盤とし、APIを通じて国内外の複数の基盤モデルやRAGの機能を提供する。計算基盤やネットワーク構成なしで、クラウド上の実行環境を利用できるため、インフラ構築が不要。各種AI機能はREST APIとして提供され、アプリケーションへの組み込みやプロトタイプ開発が容易なのが特徴だ。

推論処理にはNVIDIA製のGPUリソースを採用し、複雑な生成AI処理にも安定したパフォーマンスを発揮するという。また、さくらインターネットの国内データセンターで構成されたインフラ上で基盤モデルを選択できるため、機密情報や個人情報を国内で取り扱うことが可能だ。

提供形態としては、「基盤モデル無償プラン」と「従量課金プラン」の2種類が用意される。両プラン共通の無償利用枠を超過した場合、基盤モデル無償プランではAPIリクエストに対してレート制御がかかり、従量課金プランでは超過料金が発生する。なお、基盤モデル無償プランは申し込み数に上限があり、上限に達した場合は新規の申し込み受付を停止する。

両プラン共通の無償枠は、1か月あたり「Chat completions」が3000リクエスト、「Audio transcription」が50リクエスト、「Embeddings」が1万リクエストまで。「ドキュメント（RAG）」には無償枠はなく、最小単位（100チャンク）ごとに料金が発生する。

なお、さくらインターネットは、この発表のタイミングで、フルマネージドの生成AI向け実行基盤「さくらの生成AIプラットフォーム」を、生成AI向けビジネス基盤「さくらのAI」へと名称変更した。さくらのAI Engineは、さくらのAIの第1弾サービスとなり、今後も各種サービスを段階的に拡充していくという。