数マイクロ秒の低遅延100G/RDMAネットワーク+ベアメタルで「オンプレミス環境と同等以上」を提供
日産や「富岳」など、Oracle CloudがHPC領域の採用事例と特徴を紹介
2020年11月10日 07時00分更新
日本オラクルは2020年11月6日、HPC(ハイパフォーマンスコンピューティング)領域におけるOracle Cloudのサービスの特徴や取り組み、今後のロードマップに関する記者説明会を開催した。日産自動車における流体計算や構造計算などのHPC用途での採用、理化学研究所「富岳」や大阪大学「OCTOPUS」など学術系スーパーコンピューターとの連携活用など、国内での導入事例も紹介した。
クラウドがHPC用途に「非常に向いている」理由
説明を行った日本オラクルの近藤暁太氏は、「クラウドでHPCを、というのは非常に向いており、実際に使用する顧客も増えているため、オラクルでもここに注力している」と語る。
なぜクラウドはHPCに「向いている」のか。近藤氏は「スピード」「コスト」「最適なテクノロジー」の3点を挙げて説明する。必要なときに、必要な量の計算リソースを調達できるクラウドであれば、計算処理の「スピード」を上げられ、なおかつ非使用時に大量のリソースを余らせる「コスト」の無駄も削減できる。そして、いつでも最新世代のCPUやGPUといった「最適なテクノロジー」を、導入コストなしでいち早く活用できるというメリットもある。
「HPCとクラウドはとてもマッチしている。日産自動車にも、こういう(上述のような)理由でHPC環境としてご採用いただけた」「海外事例だが、レンダリング処理サービスを提供するYellowDogでは、必要時には19万8000コアを約30分で起動してレンダリングを行い、処理が終わったら止めるというかたちでコストを削減している。オンプレミスや他社クラウドと比較して2~10倍の性能向上を実現している」(近藤氏)
それではなぜ「Oracle Cloud」なのか。近藤氏は、数マイクロ秒という低レイテンシのHPCクラスタ向けRDMAネットワークと、そのパフォーマンスをオーバーヘッドなしで生かせるベアメタルサーバー(ベアメタルインスタンス)の組み合わせを持つのが、現状でOracle Cloudだけだからと説明する。「InfiniBandを提供しているクラウドもあるが、コンピュートノードを仮想化してしまうとやはりオーバーヘッドが発生してしまう」(近藤氏)。
HPC領域における顧客のクラウドニーズは、第一に「オンプレミスのHPC環境と同等以上のパフォーマンスが出せること」である。そうでなければ、オンプレミスで実行している計算処理をクラウドに移行することができない。
「その点でOracle CloudのHPCクラスタは、東京大学や九州大学、大阪大学などがオンプレミスで保有する100Gbps InfiniBandを使ったHPCクラスタと同等のスケーラビリティ、パフォーマンスが出せている」(近藤氏)
そのほか、ベアメタルインスタンスでAMDやインテル、NVIDIAといった幅広いCPU/GPU選択肢を備えること、HPC向けのコマンドやテンプレート、イメージをあらかじめ用意してより容易に扱えるようにしていることなどを、特徴として挙げた。
データ転送料金が無料、理研「富岳」や大阪大学「OCTOPUS」の連携事例も
また、とくに国内の大学や研究機関においては、国立情報学研究所(NII)が運用する学術情報ネットワーク「SINET 5」経由でOracle Cloud東京/大阪リージョンへの閉域網接続ができる点も評価が高いという。SINETは全国900以上の大学や研究機関が参加するネットワークだ。
これはSINETから「Oracle Cloud FastConnect」サービスを使って接続する仕組みだが、FastConnectの利用料金は1Gbpsで月額1万9000円弱と安価であり、なおかつデータ量に応じた転送料金もかからないため、大量のデータを取り扱うHPC用途では競合優位性となっている。
今年7月には、理化学研究所がこのSINETとFastConnectを介して「富岳」スーパーコンピューターとOracle Cloudを接続し、富岳を利用する大学や研究機関等がそのネットワークから直接Oracle Cloudのストレージやコンピュートリソースを利用できるようにしたことが発表されている。
「たとえ(富岳の計算処理結果として)200ペタ、300ペタバイトといったデータが発生し、それを富岳とOracle Cloudの間でやり取りしても、データ転送量は無料だ。加えてOracle Cloudはストレージコストも安いので、非常にコストを抑えて使っていただける。また、GPUや(x86の)CPUのノードを併用することもできる」(近藤氏)
もう1つ、今年9月には大阪大学、NECと共同で、大阪大学が保有するスーパーコンピューター「OCTOPUS」の処理能力を拡充する目的(クラウドバースティング)で、Oracle Cloudの採用を発表している。平常時はOCTOPUSで計算処理を行うが、処理のピーク時にはそのワークロードをOracle Cloudのベアメタルインスタンスにオフロードするというものだ。
発表によると、OCTOPUSではすでに他社クラウドの仮想化リソースを利用するクラウドバースティング技術を実装しているが、技術検証の結果、仮想化ホストの物理サーバーの構成や設定の違いから、一部のプログラムでパフォーマンスへの影響が起こりうることがわかった。そこで、OCTOPUSと同等以上のパフォーマンスを実現するOracle Cloudのベアメタルリソースを新たに採用し、大量のリソースを必要とするHPC用途にも対応したとしている。
2021年前半にはArmインスタンスも新規追加予定
まとめとして近藤氏は、Oracle CloudではHPC領域において「最大のフレキシビリティ」「最高のパフォーマンス」「ベストなプライスパフォーマンス」の3点を実現するよう注力していると説明した。なお、CPU/メモリ/ストレージのサイズを柔軟に変更できる仮想マシン「Flexible VM」も提供している。
オラクルでは今後もHPC用途向けのOracle Cloud拡充を続ける。まず、9月30日にはNVIDIAの「A100」GPUを搭載したベアメタルインスタンスをリリースしている。最大512GPUまでのGPU Direct接続に対応しており、2TBメモリ/26TBローカルNVMeストレージを搭載する。「前世代(V100)は1時間あたり350円/GPUだったが、A100はその数倍のパフォーマンスを実現しつつ366円/GPUであり、プライスパフォーマンスは高い」(近藤氏)
流体計算などの用途で現在よりもコアあたり30%高いパフォーマンスを実現するインテルの“Ice Lake”世代プロセッサ、また現世代(ROME)と同じインスタンス価格でパフォーマンスを大幅向上するMILAN世代のAMD EPYCプロセッサも、それぞれ2021年前半には提供予定だと述べた。
そしてもうひとつ、OCIとして初めてArmアーキテクチャを採用したインスタンスも投入する。AmpereのAltraプロセッサを搭載したベアメタルインスタンスおよびFlexible VMで、最大160コア/1TBのCPUやメモリが利用できる。「昨今、Armアーキテクチャでのアプリ開発が増えているので、クラウドを使って開発やテストを行うの便利ではないか」と近藤氏は語った。