推論ワークロードの時代　20年積み上げてきたAWSのビルディングブロックは通用するのか？

2025年12月25日 10時30分更新

文● 大谷イビサ　編集●ASCII

「20年積み上げてきたビルディングブロックは、AI時代も通用するのか？」　AWS re:Invent 2025に登壇したピーター・デサントス氏は、セキュリティ、可用性、弾力性、コスト、俊敏性の要件に答えてきたサービスの実績をアピール。一方で、膨大に増えてきた推論ワークロードに対するAWSの最適化の取り組みについて語り尽くした。

AWS Utility Computing SVP ピーター・デサントス氏

AI時代、改めて問いかける「ビルディングブロック」の意義

　AWS re:Invent 2025の4日目朝の基調講演に登壇したのは、AWS Utility Computing SVPのピーター・デサントス氏だ。デサントス氏はre:Inventの基調講演のこけら落としとも言える「Monday Night Live」でインフラ関連の講演を行なっていたが、今回は4日目朝に回った。

　デサントス氏は、「朝の基調講演ということで、みなさんにビールを提供できなくて、すいません。私も2～3杯飲んだ方が話が面白いと言われてます」といつもの調子で講演をスタート。午後からのヴァーナー・ボーガス氏のクロージングキーノートが「AI時代に変わること」「AIの革命とデベロッパー」をテーマにするのに対し、今回のデサントス氏の講演は「変わらないこと」をテーマにすると説明した。

　変わらないこととはなにか？　デサントス氏は、テクノロジーを悪用するユーザーを前提とした「Security（セキュリティ）」、巨大なシステムを高性能・ノーダウンタイムで動かし続けるための「Availability（可用性とパフォーマンス）」、容量計画なしでシステムを拡大・縮小できる「Elasticity（弾力性）」、高価なAIを低廉なコストで提供するための「Cost（コスト）」、イノベーションや方向転換を容易に実現する「Agility（俊敏性）」という5つを掲げたスライドを掲げる。

AWSがこだわってきた5つの要件

　これらはAWSが「ビルディングブロック」の構築にこだわってきた要件だ。オンプレミスからクラウドへの移行期間のみならず、AI前提の時代にも重要な要件になったと言えるかもしれない。デサントス氏は、「これらはAWSを創設した当初から大切にしてきたAWSクラウドのコアの属性。これらを実現することが、私たちが作ってきたすべてのサービスやAPIの技術判断を導いてきた」と語る。

教科書に載ったNitro SystemとGraviton

　AWSは20年に渡り、ビルディングブロックと呼ばれるサービススタックを進化させ、さらに深化させてきた。「幅広さと深さのアプローチは偶然ではない。私たちは何年も、新しいサービス、新しい機能、新しい開発手法に投資してきた。制約を取り除くためのビルディングブロックを提供することで、魔法が起こる。みなさんは『こんなもの作れるのか？』という問いかけを辞め、次はなにを作ろうと言い始める」とデサントス氏は語る。

　初期のAmazon EC2で顕在化したのは、ジッタ（遅延）の課題だ。ほとんどのワークロードは問題なく動いていたが、要件の厳しい一部のワークロードではわずかにジッタが発生していた。この現象は、仮想化基盤の性能的な課題に端を発していた。「当時の仮想化は、ほとんどのワークロードでは問題なかったが、ベアメタルの性能には及ばなかった」とデサントス氏。「すべてのワークロードを満たす仮想化基盤」を追求し続け、行き着いたのが仮想化処理をハードウェアでオフロード化するAWS Nitro Systemになる。

　AWS Nitro Systemの導入により、パフォーマンスはベアメタルより高くなり、セキュリティも強化された。実はこのAWS Nitro Systemについては、古典的なコンピューターアーキテクチャの最新版にも取り上げられているという。「教科書にAWS Nitro SystemとGravitonに載るようになった」とのことで、会場に電子書籍が配布された。

NitroとGravitonが教科書に載る

チップの冷却化までこだわるGraviton

　デサントス氏に代わって、自社開発のARMプロセッサーであるGravitonのイノベーションについて解説したのが、AWS Compute ＆ Machine Learning Services VPのデイブ・ブラウン氏だ。

AWS Compute ＆ Machine Learning Services VPのデイブ・ブラウン氏

　AWS Nitro Systemの成功で得たのは、自社シリコンでシステムアーキテクチャを刷新すれば、今まで得られなかった性能向上を得られるという実績だった。「カスタムシリコンでネットワークやストレージの最適化できるのであれば、コンピューティングにおいても可能なはずということで、クラウドに最適化したARMプロセッサーをイチから設計した」（ブラウン氏）。

　これがGravitonになる。Gravitonは現行の4世代目に至るまで着実にコスト性能比を高め、サードパーティもランタイムやコンパイラーレベルでネイティブサポートを進めてきた。最適化のレベルは、シリコンのみならず、チップの冷却にまで及んでいる。従来はシリコンに熱界面材（TIM：Thermal Interface Material）を塗布した上に、ヒートスプレッダーとTIMを積層するのが一般的だったが、GravitonではTIM上に直接ヒートシンクを載せて冷却。リーク（漏れ）電流も減り、電力消費を3割落としたという。

従来のチップ冷却の課題

　Gravitonの設計サイクルも、ソフトウェアと同じで顧客のワークロード前提だ。ワークロードを動かし、ボトルネックを発見し、デザインを検討し、さらなる開発に活かすという流れだ。現在取り組んでいるのは、データのフェッチを高速化するプロセッサーのキャッシュの最適化だ。

従来の5倍のL3キャッシュを搭載した「Graviton5」発表

　プロセッサーのキャッシュは、コアからもっとも近くて最速のL1、サイズが大きいがやや遅いL2、さらに大きく、コア間で共用されるL3といった階層化が行なわれているのが一般的。これらキャッシュにデータがない場合は、DRAMにアクセスするため、100ナノミリがかかることになる。Graviton4は、Graviton3に比べてL2キャッシュを倍増させ、性能向上につなげたが、コア数が倍増したため、（コア間で共有する）L3キャッシュの相対容量が減少し、キャッシュミスが増えてしまったという。

　こうして課題に加え、大規模なデータベースや分析ワークロードに最適化した最新世代のプロセッサーが新発表の「AWS Graviton5」だ。Graviton5は、192ものvCPUを搭載した2つのパッケージをコヒーレントリンクで相互接続しつつ、従来の5倍にあたるL3キャッシュを搭載し、コアあたりのL3キャッシュ容量を2.6倍に向上させた。

コア数を増やし、キャッシュを倍増させたGraviton5

　Graviton5を搭載したAmazon EC2 M9gインスタンス（プレビュー）は、前世代のM8gインスタンスに比べて、25％もの性能向上を実現しているという。「EC2で最高のコスト性能比を発揮する」とのことで、初期ユーザーのAirBnBやAtlassian、Honeycomb.IO、SAPなどは性能向上や遅延の低下といった効果を得ているという。

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ