ARMプロセッサーの話を取り上げるのはすいぶん久しぶりである。前回は連載179回で、7年半ほど前になる。ちなみにこの時「次世代コア」と言って紹介したCortex-A57/A53は、すでに「前世代コア」になってしまった。
今回取り上げた理由は、富岳とAppleである。日本は富岳で久しぶりにTOP500で首位奪回したとともに、TOP500では初めてARMベースで首位に立った。
そしてAppleは6月23日のWWDCで、次期MacにApple自社製のARMベースプロセッサーを採用することを明らかにした。そんなわけで、今回と次回はこの2つのARMベースプロセッサーの話を説明しよう。今回は富岳である。
富岳に採用されたプロセッサーA64FXは
スーパースカラー/アウト・オブ・オーダー構成
その富岳に採用されたA64FXは、Appleとは真逆の方向の設計思想である。極端なまでのデータ集約型な設計である。強いて言うなら、昔AMDのCTOを務めていたPhil Hester氏がBulldozerの設計に向けて提唱した“Throughput Computing”というのが一番近いかもしれない。
まずCPUのパイプラインから説明したい。下の画像がそのA64FXのブロック図である。命令デコードは4命令/サイクルで、7命令同時発行という構成になっている。
画像の出典は、2018年のHotChipsにおける講演。
この図でオレンジ色の部分は「Main Enhanced block」と説明されている。なにからEnhance(強化)したのか? という元が下の画像の、2014年に発表されたSPARC64 XIfxである。
画像の出典は、2014年のHotChipsにおける講演。
そもそも最近のプロセッサーの場合、デコード段で内部命令(μOp)に変換して処理をしているので、デコード段を含むフロントエンドをすげかえれば、異なる命令セットでもバックエンド側はほぼ同一の構成で行けるようになっている。
古いところではAMDのAm29050とK5、最近ではAMDがZenと並行して開発していたK12がこれにあたる。実際これは富士通も公言している話であり、開発リソースを分散させずに競争力のあるコアを複数開発するには良い方法だと思う。
画像の出典は、富士通ジャーナルの“ポスト「京」プロセッサーの命令セットを紹介”
話を戻すと4命令/サイクルでのデコードに対し、実行部は以下のように役割が異なっている。
実行用オペランド | 概要 |
---|---|
EXA/EXB/EXC/EXD | 整数演算ユニット。厳密に言えば EXA:算術/論理演算、シフト、乗算 EXB:算術/論理演算、シフト、除算 EXC/EXD:算術/論理演算 と役割が微妙に異なっている。 |
EAGA/EAGB | アドレス計算 |
PRX | Predication操作(後述) |
FLA/FLB:FPU/FMA | これも厳密には FLA:整数/論理演算、シフト、浮動小数点演算、FMA、除算、暗号化処理、ベクタアドレス計算 FLB:整数/論理演算、シフト、浮動小数点演算、FMA と役割が異なっている。 |
この9つ(ただしEXC/EXDとEAGA/EAGBは共通の命令ポートを利用するので排他利用となる)の実行ユニットが独立して動く7命令のアウト・オブ・オーダー構成である。
さて、この中で要となるのはやはりSVEである。SVE、正式名称はScalable Vector Lengthというベクトル拡張命令、要するにSIMDのことであるが、おもしろいのは最小128bit~最大2048bit幅まで、チップ設計者が128bit単位でSIMDの幅を自由に選べるようになっている。
しかも命令セットが幅を規定していないため、例えば256bitのSVEのマシンと512bitのSVEのマシンがあったとすると、プログラムは両方で共通になるという、やや独特なフォーマットになっている。
A64FXの場合には512bitを選択したわけだが、SIMDの幅を広げるほど1サイクルで処理できる計算量が増える一方で、その幅のデータを1サイクルで処理しないといけないから入出力、つまりAGUやLoad/Storeユニットには負担が掛かるし、SVEのレジスターのサイズも膨れ上がるので、どこかでバランスを取る必要がある。
富岳の実質的なチーフアーキテクトを務めた東工大の松岡教授としては、512bitほどがちょうど手頃だったという判断と思われる。
もっとも実際にはそれこそSkylake-SPなどと同じように512bit幅のSVEが2つあるわけで、実質的には1024bit幅になるが、1024bitのSIMD×1よりも512bitのSIMD×2の方がプログラミングと実装が容易だったと思われる。
この連載の記事
-
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU -
第787回
PC
いまだに解決しないRaptor Lake故障問題の現状 インテル CPUロードマップ -
第786回
PC
Xeon 6は倍速通信できるMRDIMMとCXL 2.0をサポート、Gaudi 3は価格が判明 インテル CPUロードマップ -
第785回
PC
Xeon 6のIOチップレットには意地でもDDR5のI/Fを搭載しないインテルの強いこだわり インテル CPUロードマップ -
第784回
PC
Intel 3は300~500MHz動作周波数が向上する インテル CPUロードマップ -
第783回
PC
Lunar LakeにはWi-Fi 7があるがPCIe x16レーンは存在しない インテル CPUロードマップ -
第782回
PC
Lunar LakeはNPUの動作周波数がアップし性能は2倍、ピーク性能は4倍に インテル CPUロードマップ -
第781回
PC
Lunar LakeのGPU動作周波数はおよそ1.65GHz インテル CPUロードマップ -
第780回
PC
Lunar Lakeに搭載される正体不明のメモリーサイドキャッシュ インテル CPUロードマップ -
第779回
PC
Lunar LakeではEコアの「Skymont」でもAI処理を実行するようになった インテル CPUロードマップ - この連載の一覧へ