3次元アクセスが可能なプロセッサー
肝心のプロセッサーのアーキテクチャーであるが、確かにSIMDともVILWとも言えなくもないが、そうした分類の外にある独特な構成である。
まずALUが縦に、それもディジーチェーン式につながっているのが特徴である。赤い枠で囲われた単位がクラスターと呼ばれ、そのクラスターには最大64個のALUが搭載できる(ここはユーザーが自由にカスタムできる)し、そのALUにはBroadcast Busの形でスケジューラーから接続されているわけで、その意味ではSIMDである。
つまりスケジューラーがある命令を発行すると、それがBroadcast Bus経由ですべてのALUに伝達され、一斉に処理を行なうことになるからだ。64個のALUなら64-wide SIMDと言えなくもないのだが、大きく異なるのはデータはディジーチェーン式になっていることだ。
つまりALU1の結果がALU2に入り、その結果がALU3に入り……と続くわけで、一連の処理が一通り終わるまでN(N=ALUの数)サイクルかかることになる。しかもディジーチェーンなので、最初の1つのデータ処理が終わるときには、続くN-1個のデータが処理中ということになる。この仕組みは、汎用のSIMDというよりは限りなくDSPなどに近い。
また後で出てくるが、上の画像にあるようにシステム全体では複数のクラスターがある(その数も自由に変更できる)。この複数のクラスターは、それぞれ別の命令を実行できる。この観点で言えばVLIWに近い。あえて言うならVLIW DSPとでもいうべきなのだろうか?
この構成でもう1つ特徴的なのは、“No long interconnects or interconnect fabric”である。つまり複数のクラスターで連携させて処理する仕組みは取らないことだ。あくまで1つの処理は1つのクラスター内で完結させるという原則を貫いている。だからこそ少ないローカルメモリーでも足りる、ということなのだろうが。
ところで先に3D data structure addresingという話をしたが、なにを意味しているのか? というのが下の画像だ。
一般論としてニューラルネットワークでは最初のうちこそデータ量が多くなるが、そこから急速に畳み込みでデータが集約されていく結果として、ネットワークの層あたりのデータは減るが、その代わり畳み込みの処理がだんだん深くなっていく。
上の画像の例で言えば、最初の層は128×128×3だが、最後の層は2×2×1024という格好になる。従来のやり方は、これを1次元アドレスに展開して処理するのだが、すると必ずしもデータが連続アクセスできないという問題がある。
これを解決するために、メモリーの2次元アクセス機能を搭載するものもあるが、最初の層では2次元アクセスが有効だが、最後の層ではあまり意味がないのは理解できるかと思う。そこでこれを3次元アクセスできるようにしたというアイディアは素晴らしい。
ただその実装を見ると、“Runtime Instruction Fork”なる聞いたこともない概念が登場しており、本当に3Dのアドレッシングが可能なのではなく、1Dないし2Dのアドレッシングモードを持つ命令を複数個自動生成して実行することで、見かけ上メモリーの3Dアクセスを行なうというあまり例のない実装になっている。
もっともこれ“fork”という言葉の使い方の意味が不明確なのであって、例えば
C=A+B
という命令を
Load A
Load B
Add A+B
Store C
という具合に単純に分解してるだけ、という可能性もある。現状特許出願中ということもあってか、もう少し時間が経たないとこのあたりの詳細は公開されそうにない。ただこれがどの程度効果的なのかは今ひとつはっきりしないが、伝統的なVLIW/SIMDではこうしたデータの扱いが得意ではなく、効率が悪化するのはその通りだ。
ところでクラスターはどう使うのか? だが、Rovieroの説明では、ネットワークの層単位でクラスターに割り振る場合と、1つのネットワーク層を複数のクラスターで分割処理する場合の両方がサポートされる。このコントロールは全部コンパイラで行なえるようになっているという。
こういう構造なので、長いインターコネクトは存在せず、クラスター同士をつなぐノードリングが唯一「相対的に長いかな」という程度。ただこちらもリングバス構成なので、(実際の配置配線の際のレイアウト次第ではあるが)あまり長い配線にはならないだろう。その意味では、FPGAなどに実装する際にも効率の良い配置配線が可能になりそうだ。
この連載の記事
-
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ