Microsoft Build Japan基調講演レポート　GitHubもNVIDIAも登壇

生成AIと大規模言語モデルで激変した開発現場にマイクロソフトはなにを提供できるのか？

2023年06月30日 11時00分更新

文● 大谷イビサ　編集●ASCII

急激に増大するAIワークロードを支えるAzureのインフラ

　続いて野崎氏はAIのインフラでもあるAzureのデータセンターやインフラについて紹介する。マイクロソフトのデータセンターでは、2025年までに100％再生エネルギーを活用するコミットをしているほか、2030年にカーボンネガティブ、そして2050年までに1975年の創業以来排出してきた二酸化炭素をすべて除去する予定となっている。

最新のAzureデータセンターを披露する野崎氏

　グローバルで展開するAzureのリージョンは65、データセンターは200を超えている。処理数に関しては、AIの利用が増えたことで、Azure Storageの月間トランザクション数は1115兆、Azure Machine Learningの月間処理数は4700億に上っている。

　今後のデータセンターの投資はアジアが中心となる。日本、インド、インドネシア、マレーシア、ニュージーランド、台湾などでデータセンターやリージョン開設が行なわれる。また、AIワークロードの増加にともない、既存のインフラに関しても高速化が推進されている。たとえば、従来ホストOSで行なっていたネットワークとストレージのI/O処理を、サーバー側のハードウェアにオフロードすることで、高速化を実現する。FPGAを採用することで、ロジックの更新も可能になる。

　また、大規模言語モデルのトレーニングは文字通り大規模かつ大容量データを用いるため、とにかく時間がかかるのが難点。15日間以上実行したNVIDIAのGPUを1024個用いたトレーニングでは、途中でバグやヘルスチェック、再起動などが発生するため、非常に効率が悪かった。これに対して、マイクロソフトではハードウェアの上のレイヤーでジョブを管理し、効率的なトレーニングを実現する「Project Forge」を推進している。

　AIワークロードの増加は、Azureインフラの底上げを必要としている。そのため、マイクロソフトはNVIDIAとのパートナーシップにより、カスタムAIインフラである「Azure ND H100 v5『Hopper』」を開発している。「これにより、生成AIに取り組むお客さまはより大規模で複雑なAIのトレーニングが可能になります」と野崎氏はアピールした。

AIワークロードの高速化で協働するマイクロソフトとNVIDIA

　登壇したエヌビディアエンタープライズ事業本部事業本部長の井﨑武士氏は、2020年に発表された自然言語モデルのスケール則を元に、精度を高めるにはコンピューティングパワー、データサイズ、パラメーターが必要と説明。しかし、データセットやパラメーターが拡大したLLMの場合、計算量は指数関数的に増大。生成AIの基盤アルゴリズムのTransformer以前、2年間で8倍程度の成長だった計算量は、Transformer以降は2年間で275倍以上になったという。

LLMのモデルサイズの拡大について説明するエヌビディアの井﨑武士氏

　この計算量の増大に対応すべく、NVIDIAが開発したのが前述したNVIDIA H100になる。従来のA100に比べて演算性能は3倍で、Transformerに最適化されたエンジンも搭載している。とはいえ、最近はモデルサイズが巨大すぎ、すでにGPU上のメモリにロードできないという問題が出てきている。「8基のA100を搭載したサーバーが3台以上は必要になる。さらにワーキングメモリも必要になるので、もっと必要になる」（井﨑氏）。

　未曾有の容量と処理能力が必要になるLLMの学習においては、大規模なモデルを扱える程度のサイズに分割するモデル並列が行なわれる。モデル並列は、レイヤーごとにGPUを割り当てるPipeline Parallelと、デバイスごとにレイヤーの一部を処理するTensor Parallelなどがあるが、いずれにせよGPU間での通信が発生する。「GPU間の通信を高速化しないと、全体のパフォーマンスが向上しない」（井﨑氏）というのが課題になってきた。

　そこでNVIDIAが取り入れてきたのが、GPU同士の通信を高速化するNVLINKという独自規格だ。最新のNVLINKでは900GB/sを実現し、さらにスイッチを介しているので、どのGPU間の通信も速度が保証される。さらにノード外の通信に関しても、Infinibandを採用し、NDRの400GB/sを実現する。

　マイクロソフトとNVIDIAのコラボレーションは多岐に渡る。まずはコンテナベースのアクセラレーションライブラリであるNVIDIA AI EnterpriseをAzure Machine Learningに統合。NVIDIAが提供しているAI学習プラットフォームである「NeMo Framework」により、自然言語や画像のAIモデルを効率的に開発できる。

　また、メタバース環境の構築を可能にするNVIDIA Ominiverse CloudもAzure上で提供している。Azureを介して、動画や3Dデータなどをメタバース空間上で共有するデザインコラボレーションを行なったり、都市や製造現場のデジタルツインをシミュレーションすることが可能になる。TeamsやSharePoint、OneDriveなどMicrosoft 365のアプリケーションと接続することもできる。

　その他、AzureでのNVIDIAの大規模計算環境であるDGX Cloudのホストや、野崎氏が説明した生成AIの開発を加速するAzure ND H100 v5を採用。「こうした取り組みをさらに進化させ、マイクロソフトといっしょにお客さまに使いやすい環境を提供していきたい」とまとめた。

　最後、野崎氏は「われわれが提供するのはあくまでツール。AIを利用し、お客さま、パートナーに素晴らしい体験を提供するには、開発者の皆様が作り出すアプリケーションこそ重要になります。マイクロソフトとともに、ソフトウェア開発にAIを」とまとめた。

■関連サイト

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ