2018年9月7日に開催された「HPE HPC & AIフォーラム 2018」では、日本ヒューレット・パッカード(HPE)とさくらインターネットグループのHPC(High Performance Computing)インテグレーターであるプラナスソリューションズが登壇。計算資源を月額課金で利用できる高火力コンピューティングの事例や、11月にリリースされるArmサーバーホスティングサービスについて説明した。
ディープラーニングに最適なHPEの最新サーバー
HPCとAIをテーマに最新テクノロジーやユーザー事例を紹介する「HPE HPC & AIフォーラム 2018」で行なわれた「HPC & AI特化型サーバー最前線! 世界初!HPC向けArmサーバー商用ホスティングサービスとは?」のセッション。30分のセッション前半では、日本ヒューレット・パッカードの高橋健氏がHPC・AIに向けたHPE製品について説明した。
現在、HPEはHPC・AI向けとして5つの製品ラインナップを持っている。まず、スーパーコンピューター・エンタープライズHPC向けのサーバーとしては、水冷を取り入れたハイエンド「HPE SGI 8600」、高性能スイッチ可能な「HP Apollo 6000 Gen10」、2UでGPUを搭載可能な「HPE Appolo 2000 Gen10」の3製品。AIや新興マーケット向けサーバーとして、Armベースの高密度サーバー「HPE Appolo 70」、8基のGPUを搭載できる「HPE Apollo 6500 Gen10」の2製品が用意されている。高橋氏はディープラーニングに最適な後者の2製品についてさらに詳細を説明する。
HPE Apollo 6500 Gen10にはいくつかの特徴がある。まず「エンタープライズに最適な設計」という点に関しては、HPE ProLiant DL380 Gen10で搭載されている管理チップiLO5を搭載するほか、標準ラックへの搭載などを挙げた。「高いパフォーマンスを持ったプラットフォームは得てして特殊な形状を持っていることが多い。実際、前世代のGen9においては奥行きが長くて、1075mmのラックに収まらなかった」ということだが、HPE Apollo 6500 Gen10ではエンクロージャや電源用の筐体も不要になっているという。
また、2×2の冗長化パワーサプライを搭載でき、ホットプラグでの交換が可能。「GPUは大量に電気を消費するので、1つ電源が使えないだけでも処理能力は大きく落ちてしまうが、HPE Apollo 6500 Gen10ではそういったこともない」(高橋氏)。さらにUbuntuのみならず、RedHat Enterprise Linux、SUSE、CentOSなどエンタープライズ標準のOSをサポートしており、汎用サーバーと同じ使い勝手でディープラーニングの計算用途に利用できるという。
幅広いワークロードに対応する柔軟性も大きな売りだ。NVIDIAやAMDの最新GPUを利用できるほか、GPUの接続形態も「NVLink 2.0」に対応するほか、PCIeも1つのCPUに対して4つのリンク、8つのリンクを選択できる。「Gen9では物理的な結線が必要なので、4:1か、8:1かを購入時に選択する必要があった。でも、Gen10ではBIOSの変更だけで、切り替えることができるようになった」と高橋氏はアピールする。
さらにサポートに関しても、製品の保守はもちろん、企画や実装、運用に関してもHPEのプロフェッショナルが対応するという。「お客様のデータをワークショップ形式で洗い出したり、ディープラーニングの教育も可能になっている」(高橋氏)といったサービスの他、ディープラーニング専用のコンテナ構築サービスなども提供しているという。
プラナスが採用したArmサーバー「HPE Apollo 70 System」
高橋氏はセミナーの中で頻出する「エクサスケール」を実現すべく、次世代のスーパーコンピューターをデザインしているHPEの体制について説明。ラボや事業部が連携し、顧客とコラボレーションしながら、メモリ集中型のコンピューターである「The Machine」をはじめとしたプロジェクトを推進しているという。
その上で、後半に登壇するプラナスソリューションズが採用したArmサーバーの「HPE Apollo 70 System」についても説明した。2Uのフォームファクターには、Armプロセッサ(Marvell/Cavium Thender X2)を搭載するサーバートレイが挿入でき、最大32コアを実現。1CPUあたり8本のメモリチャネルを持ち、非常に高いバンド幅を誇るという。また、サーバートレイは1Uと2Uの2種類から選択でき、2つのPCIスロットにGPUの搭載をサポートする予定となっている。さらにソフトウェアに関しても、Arm向けのOSとしてRHEL/SUSEをOEM供給で受けているという。
高橋氏が強調したのはArmというチャレンジングなプラットフォームありながら、HPEのサポートで安心で利用できるという点。「北米の研究所で2500ノードクラスの導入が決まっている。こうした大規模な案件でも、安心して使っていただけるHPEのプラットフォームをぜひご検討いただきたい」と語り、次の臼井氏につなげた。
石狩データセンターでの大型案件を手がけるプラナス
後半は11月に発表を予定しているHPC向けArmサーバーの商用ホスティングについてさくらインターネット 営業部部長、プラナスソリューションズ 代表取締役社長である臼井宏典氏が語った。
プラナスソリューションズは、さくらインターネットの子会社として今年の5月に設立され、HPCを中心とした設計、販売、保守、運用、構築など手がける。臼井氏は「今まであまねく、広く、何十万ものお客様にサービスを提供してきた。決まったサービスを決まったお値段でお客様に貸し出すということをこの20年やってきたが、それだけではどうしても足りないものがあった」と会社設立の背景を語った。
ちなみに「プラナス」はさくら属やスモモ属を意味し、さくらインターネットのソリューションを担うという意味になる。「MSPやSIerの方々は、なんだ競合かと思われるかもしれないが、石狩データセンターでの構築に実績を持つ会社と覚えてもらいたい。まだまだ規模も小さいので、監視や構築支援、商流の部分でパートナーとタッグを組ませていただきたい」と臼井氏は語る。
また、プラナスがインテグレーションの拠点とする石狩データセンターについても改めて説明された。空調コストを下げる冷涼な気候、最大7000ラック規模にまで拡張可能な巨大な敷地、通信回線の結線点となり地の利など、さまざまなメリットを持つ石狩データセンターだが、セッションの前日には北海道胆振東部地震の影響も受けた。この点に関して臼井氏は、「昨日の今日なので、もはや災害リスクが低いとは言えない。でも、未曾有の大地震が起こっても、現場はなにも問題を起こさずサービスを提供し続けられている」とアピール。その後、約60時間におよぶ非常用電源設備による運用から通常運用に戻ったのはご存じの通りだ。
さて、HPEとの事例としては、産総研(国立研究開発法人 産業技術総合研究所)と先端素材高速開発技術研究組合(Hi-MAT)が共同運営するスーパーコンピューターシステムが挙げられる。新素材の研究のために2017年4月から稼働しているこのスパコンプロジェクトでは、さくらの高火力コンピューティングの基盤が採用されており、総理論演算性能は約1.153ペタフロップスに及ぶという。「今までスパコンはオンプレ運用が一般的で、研究員の方たちが死ぬ思いでお守りをしていました。でも、今はこういたシステムをわれわれがお預かりしています」(臼井氏)
システムはHPE Apollo 2000が256台1024ノードで構成されており、総コア数は3万2768。ストレージがDDN SFA14KX(2PB)、スイッチがMellanox SB7800、7890を100台ということで、とにかく巨大。サーバーがここまで集積されると、アイルキャッピングされたデータセンターでも、局所的に熱だまりができるという。「素組みだと、70度の熱だまりとかできて、やはりケーブルの被膜は溶けるんです。エアフローや配線の取り回しまで含めて、設計の段階ではなかなかわからない」と臼井氏は指摘する。データセンターの専門性や事業者のノウハウが蓄積されることで、スパコン案件も増えてくると予想する。
いよいよ11月に開始されるArmホスティングサービス
プラナスがこういた案件を手がける背景には「所有から利用へ」という時代の潮流がある。臼井氏は、「スパコンや大型調達は、初期費用がとても大きい。ベンダーや商社にお支払いする額が何億、何十億という単位にもなる。運用フェーズで予算を確保するのも難しいし、中間報告での変動に対応できない」という課題を指摘する。しかし、数多くのサーバーを抱える石狩データセンターであれば、サーバーを月額単位で借りることができ、中間評価で予算が減ったり、逆に規模がスケールアップしても対応できる。「数十万台単位のサーバーを運用しているさくらからしてみれば、1000台はたかだか1%程度の規模」とのことで、迅速性、スケーラビリティ、柔軟性など、さまざまなメリットを得られるという。
そしてプラナスはHPE Apollo 70 Systemを採用した世界初のArmホスティングサービスを2018年11月にリリースする。Armプラットフォームに関しては、対インテル比70%というコスト、特定の計算やメモリを使うアプリケーションでのコスパ、欧米などですでに採用されている点が期待されている。「スマートフォンはArmで動いているわけで、サーバー側もArmだったら、新しい世界が見えてくるのではないか」と臼井氏は語る。
サービスは64GBと256GBの2つのメモリサイズのモデルを用意し、ArmのCavium ThunderX2を搭載するサーバーをサービス型で利用できる。臼井氏は、「まずは動くかどうかの確認です。いい言い方であればベンチマーク、悪い言い方なら人柱になると思います。でも、『もう触ったよ』は3年後の『触らなきゃ』に比べて、大きな財産、大きな武器になるはず」とアピールし、セッションを終えた。