このページの本文へ

ロードマップでわかる!当世プロセッサー事情 第298回

スーパーコンピューターの系譜 低コストな超並列マシンQCDOC

2015年04月06日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

QCDOCのベースは
PowerPC 440

 こうした背景を元に、1997開発されたQCDOCは、PowerPC 440をベースとした、非常にコンパクトなマシンになった。PowerPC 440そのものはIBMが1999年に発表した、組み込み向けのPowerPCコアである。

 組み込み向けというのは、単にCPUパッケージとして組み込み機器に入れる以外に、ASIC(特定用途向け専用IC)内部に統合することも想定していることを指す。

 内部は2命令同時実行のIn-Orderスーパースカラーで、パイプライン段数は7段という比較的おとなしめのスペックになっている。

PowerPC 440のパイプライン構成。実行ユニットはInteger×2とメモリアクセスで合計3つ搭載されており、このうち2つが同時に動く。出展は1999年10月のMicroProcessor ForumにおけるIBMの発表資料より

 性能は、Dhrystone 2.1で1.8MIPS/MHzというあたりだ。ただし組み込み向けということで、消費電力はIBMの180nmプロセスを使った場合で2.5mW/MHzと、かなり少ない。

 QCDOCの場合は500MHzで動作したので、稼動時のCPUコアの消費電力は1.25Wほどでしかない。またトランジスタ数は32KBの命令/データキャッシュを込みで550万個、ダイサイズは、これもCPUコア部だけで言えば同じく180nmプロセスを使ってわずか4mm2に抑えられている。

 ところが、PowerPC 440そのものは整数演算ユニットのみで構成されているので、このままでは科学技術演算には不利である。そこで、特にSoCを利用する場合に向けてAuxiliary Processor Interfaceなるものが用意されている。

Auxiliary Processor Interfaceの構造。当時の説明は「これを使って任意のアクセラレーターを追加できる」という話だったと記憶している。実際にはFPUしか使われなかったようだが……

 このインターフェースを使ってFPU(Floating Point Unit)を追加することで、浮動小数点演算を高速にすることも可能となっている。

QCDOCは部品点数を抑えて
低コスト化を実現

 下の画像がQCDOCの内部構造である。PowerPC 440コアに、倍精度のMAC演算が可能なFPUを組み合わせ、さらにローカルで4MBのEmbedded DRAM、DDR SDRAMのI/F、Network×2などを組み合わせたうえで、独自のSCU(Serial Communication Unit)を搭載して、24本のリンクが出せるようになっている。

QCDOCの内部構造。独自のSCUから24本のリンクが出せる。これ以降の画像出典は“Hardware and software status of QCDOC”(http://arxiv.org/abs/hep-lat/0309096)より

 ちなみにイーサネットそのものはあくまで起動あるいはシステム管理用で、これを使ってプロセッサー間通信を行なっているわけではない。

 上の画像で白い部分はIBMがIPとして元々持っていた部分で、水色の斜線部のみQCDOCにあわせて新規に開発された部分である。そんなわけで、ほとんどの部分は既存のIPを流用して作られたわけだ。

 ちなみにQCDOCチップも、やはりIBMのCMOS 7SF(180nm CMOS)で製造されている。このチップを2つ搭載したカードが下の画像である。

これで2ノード分である。DDR SDRAMは1ノードあたり1枚となっている。QCDSPに比べればだいぶ大型化しているものの、一般的なHPCのノード用のネットワーク拡張カード程度の大きさに2ノードが収まっている

 QCDOCの場合、初期コストの低減も重要な課題であり、DDR SDRAMとイーサネットのPHY以外はほぼすべてがQCDOCのチップの中に収められており、部品点数が非常に抑えられ、ひいてはコスト削減にもつながる。このカードもQCDSP同様に、32枚(64ノード)をまとめて装着できるボードの形で実装されている。

32枚(64ノード)をまとめて装着できるボード。ボードの奥行きが結構あるのがわかる

 ノード間接続は、6次元のトーラス構造である。下の画像は小規模なQCDOCを使った4次元構造の例だが、台数が多くなる場合は平面構造を複数枚積み重ね、間をやはりSCUリンクでつなぐ格好になる。

赤がACUを使ってのノード間接続のリンクで、緑はイーサネットを使ってホストあるいはディスクにアクセスするためのもの。スイッチそのものは安価な8ポートのGbEスイッチである

 リンクの速度は500Mbpsで、ノード間のレイテンシーは50ナノ秒前後とされる。帯域そのものはそう早くないが、レイテンシーは比較的少なめであり、またリンクから直接EDRAMやSDRAMをアクセスするためのDMAエンジンも搭載されるなど、色々工夫がなされていた。

→次のページヘ続く (ASCプロジェクト関係者が注目するほどの価格性能比

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン