ロードマップでわかる!当世プロセッサー事情 第805回
1万5000以上のチップレットを数分で構築する新技法SLTは従来比で100倍以上早い! IEDM 2024レポート
2025年01月06日 12時00分更新
難点はウェハーの歪みだが
ダイサイズが小さくなれば無視できる
まだSelective Layer Transferの技術にはいくつか難点がある。その最大のものが、ウェハーの歪みである。
上の画像の一番左がなにもしない場合のウェハーの歪みで、当然端に行くほど歪みが大きくなる傾向にある。これは当然今回も発生するわけだが、インテルによればチップレットの寸法が小さくなればなるほど、WoWの場合と同じ状況になる、としている。
歪みそのものは今さらどうしようもない(これの改善は今回のテーマではない)が、その影響はダイサイズが小さくなれば、その問題は無視できるという話であった。WoWと同じ傾向になるので、WoWと同じ方法で対処すればいいわけだ。
さまざまなパターンでの実装を試してみたが、概してうまくドナーウェハー上のダイがレシーバーウェハー側に転送できた、としている。
ちなみにスライドでは省かれたが、論文の方には、ダイ同士の間隔が大きい場合に上手くいかなかった例が示されているが、これは設計の最適化で対処できるとしている。
また他にも今回の技法の問題としてVoid(無効領域)の発生や、ダイの角の欠けなどが生じたケースもあるとする。ただきちんとパラメーターを合わせると、うまくダイを転送できることが実証されており、あとはプロセスの最適化を進めることで、これまでCoWでは発生しなかったこうした新しい問題の回避ができる、とまとめている。
で、記事冒頭の画像に出てきたものが下の画像だ。今回の技法の実証用に作られたドナー(チップレット)とレシーバー(ベース側)のウェハーを組み合わせた結果が右側である。レシーバー側のベースダイの大きさは4×4mm~8×8mmまで複数のサイズの組み合わせとなっており、この上に1mm角のチップレットダイを転送するというものだ。最終的には1万5000個以上のチップレットを転送できたとしている。
論文によれば、転送速度はおおむね毎時20万チップレットとしているので、今回の1万5000個のチップレットの転送にかかった時間は4.5分という計算になる。これは従来比で100倍以上の高速化になる、というのが今回の発表の肝である。
およそ200mm2以上のSoCなら
製造原価を大幅に下げられる
あくまでも今回は研究レベルの話なので、今すぐインテルの工場でこれを利用したサービスが可能というわけではない。ただこの方式が実用化されれば、チップレットの敷居がだいぶ下がることになる。実のところ、現時点でチップレットがメリットとして出てくるのは、モノリシックで200mm2前後以上のSoCに限られる。
例えばZen 4 RyzenではCCDが72mm2、IoDが122mm2なので、足すと194mm2になる。ギリギリ基準を下回るが、CCDが2個のRyzen 9では合計266mm2。
モノリシックでこれを作るとIoDの機能もTSMC N5での製造になるが、そもそもPHY(PCI ExpressやMemory I/Fなど)が含まれるからプロセス微細化の恩恵は受けにくい。強いて言えば内蔵するGPUが小型化されるのと、CCD/IoD間のインフィニティ・ファブリックのI/Fを省ける程度だが、それでも合計で200mm2を切るのは難しいだろう。
仮にモノリシックで200mm2(10×20mm)と仮定すると、1枚のウェハーから取れるのは最大300個、D0=0.1で有効ダイは240個となる(歩留まり80%)。ウェハーコストが1万7000ドルとして製造原価は70.8ドルほどになる。
一方チップレット方式では、CCDは876個中773個が有効となり歩留まりは93.1%、製造原価は22ドル。IoDは500個中429個が有効で、歩留まりは88.6%。製造原価は(TSMC N6の価格がTSMC N7と同程度だとすると)ウェハーコストは1万ドル程度なので、製造原価は23.3ドルほど。
これでRyzen 3/5/7のダイの製造原価は45.3ドル、Ryzen 9が67.3ドルということになり、Ryzen 9に関してはモノシリックとおおむね同等だが、Ryzen 3/5/7ではけっこうメリットになることがわかる。このあたりが現在チップレットを利用する場合の境であり、これより小さいものに関してはむしろ製造コストが上がることになる。
ただ今回の方式が広まれば、このしきい値(合計200mm2)をグンと下げられることにつながる。例えばSRAMの積層などを2層や4層にする場合でも、実装コストがそれほど増えないわけだ。
AMDの3D V-Cacheが32MB SRAMダイを2枚積層するのではなく、あらかじめ2枚のSRAMダイを焼き固めて1つの64MB SRAMダイにして積層する理由の1つは、この実装コストを最小に抑えるためだろうと考えられる。そう考えると、なかなか夢のある話であると言えるだろう。
この連載の記事
-
第804回
PC
AI向けシステムの課題は電力とメモリーの膨大な消費量 IEDM 2024レポート -
第803回
PC
トランジスタの当面の目標は電圧を0.3V未満に抑えつつ動作効率を5倍以上に引き上げること IEDM 2024レポート -
第802回
PC
16年間に渡り不可欠な存在であったISA Bus 消え去ったI/F史 -
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ - この連載の一覧へ