前回までに、CPUには複数のキャッシュが搭載されていることを説明した。今回はそのキャッシュをどう制御するか、という話をしよう。
3階層のキャッシュのどこにデータを置くか?
例えば図1のように、1次~3次までキャッシュを持つCPUを考えてみる。ここでCPUがデータ(命令でもいい)のフェッチを掛けた場合、まずは1次キャッシュのタグを検索する(図1-①)。ここで見つかれば問題なく、単に1次キャッシュからそのデータを引っ張ってくる(図1-②)だけでいい。問題は1次キャッシュにデータがなかった場合(キャッシュミス)である。
図2は、2次キャッシュでヒットした場合だ。まず1次タグを参照し(図2-③)、ここにないことがわかったら、次は2次タグを参照する(図2-④)。2次タグで発見したら、2次キャッシュからデータをフェッチする(図2-⑤)とともに、1次キャッシュにもキャッシュフィル(データのコピー)を行なう(図2-⑥)。
これは1次ミス/2次ミス/3次ヒットの場合でも同じである(図3)。今度はまず1次タグ(図3-⑦)/2次タグ(図3-⑧)/3次タグ(図3-⑨)と順に参照して、3次タグで発見したらそこからフェッチする(図3-⑩)とともに、1次キャッシュへのフィルも行なう(図3-⑪)。
問題は、この1次/2次/3次キャッシュに、何がどのタイミングで入るのか、である。通常のCPUでは、「Implicit Prefetch」(暗黙のプリフェッチ)という機構が利用される。例えば図4のような仕組みだ。
CPUがあるメモリーアドレスのフェッチを要求し、1次/2次/3次とすべてのキャッシュがヒットしなかったケースを考えてみる。この場合、CPUはそのメモリーアドレスを指定してメモリーアクセスするわけだが、通常この際には、1ライン分のメモリーを取得する(取得したと思っている)。しかし、実際には指定したアドレスから7ライン分のメモリーを取得し、1次キャッシュには目的のラインを、2次キャッシュには目的のラインに続く2ライン、3次キャッシュにはさらに続く4ラインを同時に格納するといったメモリーの取り込み方をする。
これにより、例えば1次キャッシュに取り込んだラインを使い切っても、その次の領域は2次キャッシュに、さらにこれに続く領域は3次キャッシュにすでに取り込まれている。だから、最低限のレイテンシーで7ライン分までアクセスできることになる。
ちなみに、これはあくまでも概念であって、実際の実装方法は異なったものである。例えばインテルの場合、「Pentium M」「Pentium 4」までで利用された方法と、Coreマイクロアーキテクチャーで採用された方法では、特に2次/3次キャッシュに対するキャッシュフィルの方法が若干異なる。同じメーカーのCPUでも、アーキテクチャーによってこのあたりの方法論は変わることがある。
この連載の記事
-
第801回
PC
光インターコネクトで信号伝送の高速化を狙うインテル Hot Chips 2024で注目を浴びたオモシロCPU -
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ