ファストリー(Fastly)は、2025年1月20日、生成AIアプリケーションの応答を最適化するセマンティックキャッシュソリューション「Fastly AI Accelerator」の一般提供を開始した。
Fastly AI Acceleratorは、LLM(大規模言語モデル)の応答をキャッシュして、生成AIアプリケーションのパフォーマンス向上とコスト削減を実現するソリューション。LLMに対する過去の類似したプロンプトに対して、Fastlyのキャッシュが回答を返すことで、応答を高速化して、APIコールの使用量を減らすことができる。
セマンティックキャッシュの技術を用いることで、自然言語で書かれたプロンプトにおいても、意味的に類似した問い合わせに対してキャッシュを利用できる。
実装方法は、アプリケーションのAPIエンドポイントを更新して、わずか1行コードを変更するだけ。Fastlyの検証では、同ソリューションを利用することで、応答時間が平均9倍速くなったという。
ベータ版では、OpenAIのChatGPTで利用できたが、一般提供にあわせて、MicrosoftのAzure AI Foundryにも対応している。
