今回はフランスKalray社のMPPA(Massively Parallel Processor Array)を紹介したい。フランスのプロセッサー会社というのはそれほど数が多くはないが、Kalray以外にも独自プロセッサーIPから最近はRISC-Vに鞍替えしたCortus S.A.S.などがあるし、2014年に同じフランスのAtoSに買収されたが、Bullというコンピュータメーカーもあった。
古い話ではACRIなどもあるため、フランスの会社がすごく珍しいわけでもない。そしてKalrayは意外にも老舗であり、実は日本でもけっこうがんばって販売しようとしていた。
KalrayはもともとCEA(Le Commissariat à l' énergie atomique et aux énergies alternatives:フランス原子力・代替エネルギー庁)のFrench Labから独立する形で2008年に創業したメーカーである。
当初のCEOはJoel Monnier氏で、当時STMicroelectronicsのCorporate Vice Presidentからの転職で、2018年の株式上場にともない現在のEric Baissus氏にバトンタッチするまでCEO職を務めていた。
リアルタイムで処理ができて
プログラミングが容易なプロセッサーを開発
Kalrayは当初、データプロセシング向けのスペシャル・プロセッサーを開発していた。もともとCEAのラボの時代から、どうも大量のデータをリアルタイムで処理できるようなプロセッサーを研究していたようで、2015年のHot Chipsでは同社のMPPAの目的を「Time-Critical Computing(実時間処理)が可能ながらプログラミングが容易なプロセッサー」としている。
当時のことなので、まだFPGAはVerilogなどの専用言語が必要で、DSPもまだCなどの高級言語で記述というのは難しく、その一方でGPUやメニーコアプロセッサーではTime-critical Computingは難しいというわけで、この境目を狙った格好である。
ここで言うTime-Critical Computingというのは、要するに「ある一定の処理が、一定の時間で処理可能であることを保証できる」仕組みである。
この「一定の時間」というのが難しいところで、例えば「1分以内の制御」なら、GPUやIntel MICなどでも間に合うはずだ。ところが「1秒以内」と言われると「たぶん大丈夫だけど、たまに怪しいことがある」となり、「ミリ秒以内」になると「保証はできない」ということになる。
どのあたりに狙いを定めるかだが、“Execution timing issues”で投機実行や分岐予測、あるいはコア間のリソース(キャッシュ/バス/デバイス)の競合、Cache turbulenceなんていう項目まで出てくるあたり、MPPAはミリ秒~マイクロ秒以内のTime-Critical Computingを狙ったものに見える。
この結果としてMPPAは、DSP風の演算ユニットを、C/C++などの高位言語でプログラム可能で、しかも多数のコアを同時に動かすという構成を取ることになった、としている。
こうしてできあがったのが、同社の第2世代のMPPAであるBostanプロセッサーことMPPA-256である。VILWにすることでIn-Orderのまま命令を同時に多数実行できるし、Out-of-Order実装にともなう不確実性(実行までの時間が不定になる)は避けられるし、メカニズムそのものも簡単になるので、多数のコアを集積する際にダイサイズの肥大化を抑えられる。
コアそのものは8KB L1 I+Dキャッシュしか搭載しないが、これを16コア集めたクラスターでは2MBの共有メモリーが搭載されている。コアあたり128KBという計算になるから、L2キャッシュ代わりとして利用するには十分だろう。外部I/FはDDR3とPCIe Gen3、10Gイーサネットであるが、2015年という(Bostonのテープアウトは2013年だった)ことを考えれば妥当な構成である。
この連載の記事
-
第769回
PC
HDDのコントローラーとI/Fを一体化して爆発的に普及したIDE 消え去ったI/F史 -
第768回
PC
AIアクセラレーター「Gaudi 3」の性能は前世代の2~4倍 インテル CPUロードマップ -
第767回
PC
Lunar LakeはWindows 12の要件である40TOPSを超えるNPU性能 インテル CPUロードマップ -
第766回
デジタル
Instinct MI300のI/OダイはXCDとCCDのどちらにも搭載できる驚きの構造 AMD GPUロードマップ -
第765回
PC
GB200 Grace Blackwell SuperchipのTDPは1200W NVIDIA GPUロードマップ -
第764回
PC
B100は1ダイあたりの性能がH100を下回るがAI性能はH100の5倍 NVIDIA GPUロードマップ -
第763回
PC
FDD/HDDをつなぐため急速に普及したSASI 消え去ったI/F史 -
第762回
PC
測定器やFDDなどどんな機器も接続できたGPIB 消え去ったI/F史 -
第761回
PC
Intel 14Aの量産は2年遅れの2028年? 半導体生産2位を目指すインテル インテル CPUロードマップ -
第760回
PC
14nmを再構築したIntel 12が2027年に登場すればおもしろいことになりそう インテル CPUロードマップ -
第759回
PC
プリンター接続で業界標準になったセントロニクスI/F 消え去ったI/F史 - この連載の一覧へ