クラウドファンディングで資金を集めParalleraを開発
製造の遅れで倒産寸前にまで追い込まれる
そこで同社は2012年、まずEpiphany-IIIをベースにした開発ボードを売ることを決定する。これがParalleraである。このParalleraの販売にあたっては、ちょうどこの頃急激に盛り上がったクラウドファンディングを利用することで資金的な問題をカバーする方策がとられた。
Kickstarterを利用し、最終的に5000バッカー、90万ドル弱を集めることに成功する。ちなみに筆者はこの際199ドルをプレッジし、Epiphany-IIIベースのParallellaを入手することにした。
さて、これでうまくいくかと思ったら甘かった。Paralleraボードの最初のプロトタイプは2013年5月に完成。このバージョンは消費電力が高いとかHDMIが動かないなど問題はあったものの、42枚のボードを組み合わせての分散処理テストにも成功。8月には5万個のEpiphany-IIIの量産に入るとともに、Epiphany-IVベースのParalleraボードの開発に入る。
というのは、そもそもKickstarterでは16コア版と64コア版の両方を募集していたからだ。ところがこちらの開発に難航。さらに製品版の製造の遅れなども加わり、倒産一歩直前に追い込まれる。
最終的にベンチャーキャピタルから3600万ドルの資金を得て、からくも倒産を回避するが、この前後に同社のエンジニアがほぼ全員辞職。Olofsson氏1人での再出発となった。それでもParalleraボードの開発はなんとか進み、筆者の手元には2014年4月に発送された。
当初の予定では2013年5月に発送予定だったので、ほぼ1年遅れではあるが、Kickstarterではよくある話ではある。2014年中に、64コア版を含む製品の出荷が無事に終わり、加えて冒頭にもあるようにRS ComponentsやDigiKey、US Amazonなどでの販売もスタートした。
2015年には世界中でこの16コア/64コア Paralleraボードの売り込みをしており、2015年5月には東京でPTC(Parallella Technology Conference)も開催されている(この時はOlofsson氏も来日したらしい)。
2016年には後継であるEpiphany-Vがテープアウトした。これはTSMCのN16FFプロセスをターゲットとし、1024コアを集積した構成である。ただこのEpiphany-Vの開発はDARPA(アメリカ国防高等研究計画局)の研究資金を利用しており、それもあってか最終的にこれが製造されたのは間違いないが、そのチップの行先の大半はDARPAだったのだろう。
Epiphany-IIIは28nmのNVIDIA GK110と
ほぼ同等の性能/消費電力比
ところでそもそもこのEpiphanyシリーズはどんな構成なのか? というのが下の画像だ。小さなRISCベースのコアが2次元メッシュでつながるという、ある意味良くあるメニーコアの構成である。一般的でないのは、当初からOff-Chip、つまり複数のチップを接続して並列動作を可能にするためのネットワークが初めから用意されていることだ。
実際、Paralleraボードの検証にあたっては42枚のボードを接続し、全体で共有処理ができることを確認したとしている。このあたりは、ボードを専用リンクでつなぐとどんどん処理性能を引き上げられるTransputerに似ているところがある。
下の画像が実際の構成例であり、eLink(Off-chip Link)を使って複数のEpiphanyチップを接続することで性能を引き上げられる仕組みだ。
個々のメッシュノードの内部は下の画像の通りで、4つのバンクに分割された32KBのSRAMとDMAコントローラー、2次元メッシュのI/F、それとeCoreと呼ばれるRISCコアからなる。
そのeCoreの構造が下の画像だが、RISCコアと言いつつ右下にProgram Sequencerがあったりするあたり、汎用のRISC CPUコアというよりはDSP的な使い方を念頭に置いたものような気がする。説明によれば「汎用のCPUと同じようにループ制御やファンクションコール、割込み、アイドル、連続した命令の実行が可能」とされるが、こんなことを書く時点で普通ではないはずだ。
このeRISC、命令パイプラインそのものはALUが6段、FPUが8段構成で、In-OrderながらDual Issue動作となっている。といってもALU×2やFPU×2は当然不可能で、IALU+FPU/IALUか、FPU/IALU2+Load/Storeのみである。
ただALUもFPUも1サイクルでの処理が可能であり、特にFPUでは1サイクルでMAC演算が可能なため、1GHz駆動のEpiphany-IIIなら32GFlops、800Mhz駆動のEpiphany-IVなら102GFlops(どちらも単精度)の演算が可能であった。これは結構すさまじい性能「だった」。
2012年と言えばGPUならNVIDIAのK20が単精度で3.5TFlopsほどの性能を叩きだしているが、こちらは消費電力235W。対してEpiphanyはIIIもIVもどちらも2Wでしかない。Epiphanyシリーズは最大4095コアまで接続可能になっているが、フル構成だとEpiphany-IIIベースなら消費電力は512Wになるが性能は8.2TFlops、Epiphany-IVベースだと128Wで6.5TFlopsになる。Epiphany-IIIベースで235Wだと3.7TFlopsほど。
やはり65nmプロセスのEpiphany-IIIはやや不利だが、それでも28nmで製造のNVIDIA GK110とほぼ同等の性能/消費電力比。Epiphany-IVはGK110に比べて3倍以上も効率が良い計算になる。

この連載の記事
-
第852回
PC
Google最新TPU「Ironwood」は前世代比4.7倍の性能向上かつ160Wの低消費電力で圧倒的省エネを実現 -
第851回
PC
Instinct MI400/MI500登場でAI/HPC向けGPUはどう変わる? CoWoS-L採用の詳細も判明 AMD GPUロードマップ -
第850回
デジタル
Zen 6+Zen 6c、そしてZen 7へ! EPYCは256コアへ向かう AMD CPUロードマップ -
第849回
PC
d-MatrixのAIプロセッサーCorsairはNVIDIA GB200に匹敵する性能を600Wの消費電力で実現 -
第848回
PC
消えたTofinoの残響 Intel IPU E2200がつなぐイーサネットの未来 -
第847回
PC
国産プロセッサーのPEZY-SC4sが消費電力わずか212Wで高効率99.2%を記録! 次世代省電力チップの決定版に王手 -
第846回
PC
Eコア288基の次世代Xeon「Clearwater Forest」に見る効率設計の極意 インテル CPUロードマップ -
第845回
PC
最大256MB共有キャッシュ対応で大規模処理も快適! Cuzcoが実現する高性能・拡張自在なRISC-Vプロセッサーの秘密 -
第844回
PC
耐量子暗号対応でセキュリティ強化! IBMのPower11が叶えた高信頼性と高速AI推論 -
第843回
PC
NVIDIAとインテルの協業発表によりGB10のCPUをx86に置き換えた新世代AIチップが登場する? -
第842回
PC
双方向8Tbps伝送の次世代光インターコネクト! AyarLabsのTeraPHYがもたらす革新的光通信の詳細 - この連載の一覧へ
















