ロードマップでわかる!当世プロセッサー事情 第566回
マルチメディア向けからAI向けに大変貌を遂げたMovidiusのMyriad 2 AIプロセッサーの昨今
2020年06月08日 12時00分更新
Myriad 2がDNN向けプロセッサーに大変身
そのMyriad 2だが、2年後の2016年に開催されたHot Chips 28では“Embedded Deep Neural Networks”向けチップとしてさらっと再登場した。最初に示されたのがこのスライドである。
もうこの時点で同社は学習(Training)ではなく推論(Inference)に明確にフォーカスしているのがわかる。
要するにBackpropergation(学習で利用されるパラメータ調整のための逆伝搬)は無視すると、推論は(乱暴に言えば)レイヤー単位で畳み込み→圧縮→有効化を行なうという話で、これはSHAVE的な実装に非常に適したものとなる。
もちろんいろいろ阻害要因はあり、この時点ではまだ一般論としてネットワークの層数が多ければ多いほど精度があがるが、結果としてネットワークそのものの規模が極端に大きくなっている。
それでも、クラウド側で推論を実現するよりはエッジ側で推論を実現する方が効率が良く、レイテンシーも少ないとして、同社はエッジでの推論に最適化したソリューションを用意したとしている。
ということでMyrad 2が再び登場した。先ほどのMyriad 2の構成画像と見比べてみると、RTOSコアのL2/ROM容量が倍増した以外の違いがまったく見当たらない。実際画像処理ハードウェアまでそのまま搭載されており、要するにハードウェアを「ほぼ」そのまま持ってきた感じである。
このSHAVEは、畳み込みなどにもちょうど都合の良い構造になっているというのがMovidiusの説明である。
畳み込みなども含めた行列演算一般をGEMM(General Matrix Multiply: 汎用行列乗算)と呼び、例えばインテルもGEMMをSSE/AVXを使って高速に処理するためのライブラリーとしてIntel MKL(Math Kernel Library)を提供しているが、MovidiusはもともとSHAVEがGEMMに向けた構成になってるとしており、1サイクルで48演算が可能で、600MHz駆動で345.6GOP/秒が実現できるとしている。
昨今では1TOP/秒以上を誇るプロセッサーも少なくなかったが、当時としてはかなり画期的な性能であった。もちろんこれはNVIDIAの、例えばKeplerベースのTesla K40(GK110搭載)の4300~5000GFlops(=4300~5000GOP/秒)に比べると1桁小さい性能ではあるが、Tesla K40がTDP 235Wなのに対してMyrad 2の消費電力は1.2Wに過ぎない。
性能そのものはGoogLeNet Batch=1の場合で25fpsと、GPUと比較しても遜色ない結果であり、おまけに1.2Wだからファンはおろかヒートシンクもなしで利用できることになる。
ただしソフトウェア的には、既存のフレームワークをそのままMyriad 2の上で動かすのは無理だったようで、Fathomと呼ばれる独自コンパイラを利用して、既存のフレームワークとネットワークを、Myriad 2に適した形に変換して実行する形になる。
インテルに買収されたMovidius
Edge AI向けNPUとして大成功を収める
さて2年かけてVision ProcessorをDNN向けプロセッサーに組み替えた(Vision Processorの上でDNNを走らせるためのソフトウェア環境を整えた)結果どうなったかというと、Hot Chips 28の翌月である2016年9月5日、インテルに買収された。
2017年にはこれをUSB Stickタイプの形にしたMovidius Neural Compute Stickが発売され、2018年にはチップを8倍高速なMyriad Xに置き換えたIntel Neural Compute Stick 2も発売される。
どうやって8倍を実現したのか詳細は明らかにされていないが、プロセスの微細化(TSMC 28HPM→TSMC 16FFC)とSHAVEコアの増量(12→16)に加え、内部の再設計(VAUやSAUのスループット向上?)や、必要のない映像処理ハードウェアの削除、メモリー搭載量強化などが実行されたものと思われる。
インテルによる買収ではしばしば悲惨なことになるケースを目にするが、Myriadに関して言えば現在もEdge AI向けNPUのメイン製品であり広く利用されている。
Computer Vision向けからAI向けへの看板の架け替えが成功した稀有な例という意味も含めて、見事に成功した例として良いだろう。
この連載の記事
-
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU -
第789回
PC
切り捨てられた部門が再始動して作り上げたAmpereOne Hot Chips 2024で注目を浴びたオモシロCPU -
第788回
PC
Meteor Lakeを凌駕する性能のQualcomm「Oryon」 Hot Chips 2024で注目を浴びたオモシロCPU -
第787回
PC
いまだに解決しないRaptor Lake故障問題の現状 インテル CPUロードマップ -
第786回
PC
Xeon 6は倍速通信できるMRDIMMとCXL 2.0をサポート、Gaudi 3は価格が判明 インテル CPUロードマップ - この連載の一覧へ