このページの本文へ

前へ 1 2 3 次へ

AIエージェントに選択肢 「AWS re:Invent 2025」レポート 第8回

AWSのインフラ・ハードウェア担当からみたAI時代の最適化

推論ワークロードの時代 20年積み上げてきたAWSのビルディングブロックは通用するのか?

2025年12月25日 10時30分更新

文● 大谷イビサ 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

「20年積み上げてきたビルディングブロックは、AI時代も通用するのか?」 AWS re:Invent 2025に登壇したピーター・デサントス氏は、セキュリティ、可用性、弾力性、コスト、俊敏性の要件に答えてきたサービスの実績をアピール。一方で、膨大に増えてきた推論ワークロードに対するAWSの最適化の取り組みについて語り尽くした。

AWS Utility Computing SVP ピーター・デサントス氏

AI時代、改めて問いかける「ビルディングブロック」の意義

 AWS re:Invent 2025の4日目朝の基調講演に登壇したのは、AWS Utility Computing SVPのピーター・デサントス氏だ。デサントス氏はre:Inventの基調講演のこけら落としとも言える「Monday Night Live」でインフラ関連の講演を行なっていたが、今回は4日目朝に回った。

 デサントス氏は、「朝の基調講演ということで、みなさんにビールを提供できなくて、すいません。私も2~3杯飲んだ方が話が面白いと言われてます」といつもの調子で講演をスタート。午後からのヴァーナー・ボーガス氏のクロージングキーノートが「AI時代に変わること」「AIの革命とデベロッパー」をテーマにするのに対し、今回のデサントス氏の講演は「変わらないこと」をテーマにすると説明した。

 変わらないこととはなにか? デサントス氏は、テクノロジーを悪用するユーザーを前提とした「Security(セキュリティ)」、巨大なシステムを高性能・ノーダウンタイムで動かし続けるための「Availability(可用性とパフォーマンス)」、容量計画なしでシステムを拡大・縮小できる「Elasticity(弾力性)」、高価なAIを低廉なコストで提供するための「Cost(コスト)」、イノベーションや方向転換を容易に実現する「Agility(俊敏性)」という5つを掲げたスライドを掲げる。

AWSがこだわってきた5つの要件

 これらはAWSが「ビルディングブロック」の構築にこだわってきた要件だ。オンプレミスからクラウドへの移行期間のみならず、AI前提の時代にも重要な要件になったと言えるかもしれない。デサントス氏は、「これらはAWSを創設した当初から大切にしてきたAWSクラウドのコアの属性。これらを実現することが、私たちが作ってきたすべてのサービスやAPIの技術判断を導いてきた」と語る。

教科書に載ったNitro SystemとGraviton

 AWSは20年に渡り、ビルディングブロックと呼ばれるサービススタックを進化させ、さらに深化させてきた。「幅広さと深さのアプローチは偶然ではない。私たちは何年も、新しいサービス、新しい機能、新しい開発手法に投資してきた。制約を取り除くためのビルディングブロックを提供することで、魔法が起こる。みなさんは『こんなもの作れるのか?』という問いかけを辞め、次はなにを作ろうと言い始める」とデサントス氏は語る。

 初期のAmazon EC2で顕在化したのは、ジッタ(遅延)の課題だ。ほとんどのワークロードは問題なく動いていたが、要件の厳しい一部のワークロードではわずかにジッタが発生していた。この現象は、仮想化基盤の性能的な課題に端を発していた。「当時の仮想化は、ほとんどのワークロードでは問題なかったが、ベアメタルの性能には及ばなかった」とデサントス氏。「すべてのワークロードを満たす仮想化基盤」を追求し続け、行き着いたのが仮想化処理をハードウェアでオフロード化するAWS Nitro Systemになる。

 AWS Nitro Systemの導入により、パフォーマンスはベアメタルより高くなり、セキュリティも強化された。実はこのAWS Nitro Systemについては、古典的なコンピューターアーキテクチャの最新版にも取り上げられているという。「教科書にAWS Nitro SystemとGravitonに載るようになった」とのことで、会場に電子書籍が配布された。

NitroとGravitonが教科書に載る

チップの冷却化までこだわるGraviton

 デサントス氏に代わって、自社開発のARMプロセッサーであるGravitonのイノベーションについて解説したのが、AWS Compute & Machine Learning Services VPのデイブ・ブラウン氏だ。

AWS Compute & Machine Learning Services VPのデイブ・ブラウン氏

 AWS Nitro Systemの成功で得たのは、自社シリコンでシステムアーキテクチャを刷新すれば、今まで得られなかった性能向上を得られるという実績だった。「カスタムシリコンでネットワークやストレージの最適化できるのであれば、コンピューティングにおいても可能なはずということで、クラウドに最適化したARMプロセッサーをイチから設計した」(ブラウン氏)。

 これがGravitonになる。Gravitonは現行の4世代目に至るまで着実にコスト性能比を高め、サードパーティもランタイムやコンパイラーレベルでネイティブサポートを進めてきた。最適化のレベルは、シリコンのみならず、チップの冷却にまで及んでいる。従来はシリコンに熱界面材(TIM:Thermal Interface Material)を塗布した上に、ヒートスプレッダーとTIMを積層するのが一般的だったが、GravitonではTIM上に直接ヒートシンクを載せて冷却。リーク(漏れ)電流も減り、電力消費を3割落としたという。

従来のチップ冷却の課題

 Gravitonの設計サイクルも、ソフトウェアと同じで顧客のワークロード前提だ。ワークロードを動かし、ボトルネックを発見し、デザインを検討し、さらなる開発に活かすという流れだ。現在取り組んでいるのは、データのフェッチを高速化するプロセッサーのキャッシュの最適化だ。

従来の5倍のL3キャッシュを搭載した「Graviton5」発表

 プロセッサーのキャッシュは、コアからもっとも近くて最速のL1、サイズが大きいがやや遅いL2、さらに大きく、コア間で共用されるL3といった階層化が行なわれているのが一般的。これらキャッシュにデータがない場合は、DRAMにアクセスするため、100ナノミリがかかることになる。Graviton4は、Graviton3に比べてL2キャッシュを倍増させ、性能向上につなげたが、コア数が倍増したため、(コア間で共有する)L3キャッシュの相対容量が減少し、キャッシュミスが増えてしまったという。

 こうして課題に加え、大規模なデータベースや分析ワークロードに最適化した最新世代のプロセッサーが新発表の「AWS Graviton5」だ。Graviton5は、192ものvCPUを搭載した2つのパッケージをコヒーレントリンクで相互接続しつつ、従来の5倍にあたるL3キャッシュを搭載し、コアあたりのL3キャッシュ容量を2.6倍に向上させた。

コア数を増やし、キャッシュを倍増させたGraviton5

 Graviton5を搭載したAmazon EC2 M9gインスタンス(プレビュー)は、前世代のM8gインスタンスに比べて、25%もの性能向上を実現しているという。「EC2で最高のコスト性能比を発揮する」とのことで、初期ユーザーのAirBnBやAtlassian、Honeycomb.IO、SAPなどは性能向上や遅延の低下といった効果を得ているという。

前へ 1 2 3 次へ

カテゴリートップへ

この連載の記事
  • 角川アスキー総合研究所