「AI Builders Day」で語られたビルダー初心者向けのポイント
AIエージェント構築の勘所「6選」 アーキテクチャ選びから独自性の生み方まで
2026年01月14日 07時00分更新
ビルド・評価・フェイルセーフ:LLMOpsまで見据えた構築を
続いては、「ビルド」「評価 (evaluation)」「フェイルセーフ」という構築から運用においての勘所だ。
全体のポイントは、「LLMOpsまで見据えた構築方法を考える」ことだ。もちろんユースケースや開発チームのスキルセットを優先すべきだが、「評価と改善のフェーズまで見据えた技術選定が必要」だという。
まずは、ビルドだ。エージェントの構築方法はさまざまだが、今の主流はフレームワークである。AWSのStrands Agents SDKをはじめ、LangGraphやMastraなど様々な選択肢が存在する。そして、構築したエージェントをAWSにデプロイするには、今一番ホットなのは「Bedrock AgentCore Runtime(※)」だが、LambdaやECS/EKS、ワークフロー型であればStep FunctionsやLambda Durable Functionsもある。
※Bedrock AgentCore Runtime:Bedrock AgentCoreのサービスのひとつで、エージェントをデプロイするためのセキュアな実行環境
これらの構築やデプロイ方法は、チームの事情や要件に合わせて選ぶべきだが、なにより好奇心を持って様々なものを試し、意思決定を下せるようになることが重要である。
続いては、福地さんが「とっても大事」だという評価 (evaluation)だ。
前提として、AIが生成する回答の正解は一つではない。ただ、どの回答を求めているかは利用者あるいは開発者に依存するため、「何を正解するかを定める行為」こそが評価となる。そのために必要なのが、正解の設定と、そこからどのくらい差が生じているかを定性的・定量的に判断するための仕組みだ。加えて、回答に有害な内容やハルシ―ネーションが含まれていないかをチェックする必要がある。
さらに、自律型のエージェントにおいては、エージェントの振る舞いも評価対象に加わるのが大変なところだ。ツールを使うタイミングや回数は適切か、プラン作成や思考は正しく行えているか、検索クエリは適切かなどを考慮する必要があり、自律的に動く部分が多いほど評価は難しくなる。逆にワークフロー型であれば、回答を評価するだけでよい。
この評価には2つの方法がある。ひとつは、人が用意した模範解答と、AIが出力した回答を比較する「オフライン評価」だ。LLM-as-a-judgeといった、AI自身に回答を評価させる手法も登場している。
もうひとつ目は、人(特に利用者)が実際に使った上で結果を評価する「オンライン評価」だ。2025年12月のAWS re: Inventでは、LLMでのオンライン評価ができる「Agent Core Evaluations」も発表されている。「オンライン評価はよりリアルなフィードバックが得られるため、可能な限り実施したい」(福地さん)
加えて福地さんは、「評価はできるだけ設計段階から考えておくべき」と強調する。 少なくとも現状は、エージェントは「リリースして終わり」とはならなず、 評価と改善のサイクル(LLMOps)は一生付きまとう問題だからだ。「具体的にどう評価を行うかを考えておくと後々苦労することも減り、顧客環境用のエージェントを作る場合には、精度向上のためのフィードバックを予めネゴしておくと幸せになれる」と補足した。
「フェイルセーフ」においても、AIエージェント(LLM)特有の対策が求められる。LLMは、分単位・日単位で利用できるAPIの上限値が決まっており、インフラではなくLLM側が原因で止まってしまう可能性がある。そのための対策として、リトライ処理の実装や複数モデルを複数方法で使用できるような設計が挙げられた。
福地氏のレポート作成エージェントでは、フェイルオーバー用のセカンダリモデル(Sonnet 4.5→Hailu 4.5)をワークフローに組み入れ、メインのLLMが動かなかくても停止しないような仕組みを実装したという。
特化したエージェントに求められる“3つの要素”
最後に触れられたのは「ドメイン」である。業務で活用する上では、特化型や独自性のあるエージェントの開発は避けられない。そのために、「このエージェントはどんな作業を代替してくれるのか」「ChatGPTやClaude Desktopではだめなのか」といった、自問自答が重要だという。
福地氏が挙げた特化・独自のエージェントに必要となる要素は、「独自データ」「最適なトリガー」「優れたUI/UX」の3つである。
独自データによる差別化は、RAGを皮切りに、Tool useやMCPなどでデータ連携が容易になり、以前よりハードルが下がっている。さらに、独自性を高めるには、チャット起点ではなく、イベント・スケジュール駆動でエージェントを動かしていく。これは、環境のイベントをキャッチして自ら動き出す、Ambient Agent(より環境に溶け込んだエージェント)につながる。
チャットベースのUI/UXからの脱却も差別化になる。例えば、利用者は常にタイピングできると限らないため、音声が有用なケースもあるだろう。「難しく考えすぎず、ChatGPTやClaudeとの差別化をひとつでも考えてみて欲しい」(福地さん)
最後に福地さんは、「今回紹介した以外にも大事な要素はあり、何より日々ベストプラクティスは日々更新される。そして、設計で悩みすぎると前に進めず、ベストプラスティクスを待っていると時代に取り残されてしまう。(AWSのCTOである)ヴァーナー氏が『Now, go build!』と言うように、手を動かしてエージェントを作るきっかけにして欲しい」と締めくくった。






















