このページの本文へ

ロードマップでわかる!当世プロセッサー事情 第629回

Intel Architecture Day 2021で発表された11のテーマ インテル CPUロードマップ

2021年08月23日 12時00分更新

文● 大原雄介(http://www.yusuke-ohara.com/) 編集●北村/ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

Intel Thread Director

 Alder LakeはP-CoreとE-CoreのMixになる関係で、big.LITTLE構成になる。したがって適切なスケジューラーを用意しないと、省電力にさせたい場面でP-Coreが動いたり、演算パワーが必要なシーンでE-Coreが動いたりと都合が悪い。このためOSのスケジューラーに手を入れていろいろ工夫を凝らす必要があるのだが、インテルはAlder LakeでこれをサポートするThread Directorを実装した。

 Thread DirectorはハードウェアとOSのスケジューラーの中間に位置するが、Thread Directorに対応しないOSの場合、Thread Directorは透過的に機能するためOSはThread Directorがあることそのものを意識しない。

その代わり、Thread Directorの提供する機能そのものは利用できなくなるので、スケジューリングの精度は落ちることになる

 特徴的なのは従来のbig.LITTLEのスケジューラーがおおむねそのプロセッサーの負荷を見るのに対し、Thread Directorでは実行される命令なども同時に監視することで、これはソフトウェアベースのOSのスケジューラーでは真似できない。

 具体的に言えば、優先的なタスクやAI関連命令はP-Coreに、バックグラウンドのTaskはE-Coreに割り当てるほか、Spin Lock(スレッド間同期を取るために、CPUを空回りさせる命令)があったらE-Coreに割り当てる(単に待っているだけならP-Coreである必要はない)といった工夫がなされている。

Spin Lockはしばしばドライバーで使われることもあるので、これドライバーの動作中に煩雑にP-CoreとE-Coreのスイッチが発生しそうな気もする。もっともSpin Lock命令が発生したら直ちに、というよりはある程度Spin Lock状態が続いたら移行といった実装になっていそうだが

Alder Lake

 さて、P-CoreとE-Core、Thread Director、それとXe GPUを組み合わせたのがクライアント向けのAlder Lakeである。このAlder LakeはIPによるビルディングブロック構造になっており、デスクトップ/モバイル/ウルトラモバイル向けの、最低限3種類のSKUが用意されることが明らかにされた。

デスクトップはE-Core×8+P-Core×8だが、IPU(Image Processing Unit:カメラ用I/F)やTBT(ThunderBolt Technology)は未搭載で、GPUも32EUのみ。モバイル/ウルトラモバイルはP-Coreの数が減って、その分GPUが強化され、TBTやIPUが搭載される

 このうちデスクトップ向けについては従来レポートしてきたがLGA1700パッケージで提供され、最大消費電力は125W。他に、モバイル向けにBGAパッケージ2種類も用意される。またメモリーはDDR4/DDR5の両対応となる。さらにデスクトップ版は、PCIe Gen5 x16レーンとPCIe Gen4 x4レーンの構成になるとする。

Alder LakeでもPCHの統合は先送りの模様

LPDDR4x-4266やLP5-5200はモバイル向けのみと思われる。ちなみに同じLGA1700でDDR4とDDR5の両対応だが、マザーボードの側はDDR4版とDDR5版で異なるものが必要になる形だ(両方のメモリースロットを用意する変態マザーボードもありそうだが)

SSD向けのx4レーンがPCIe Gen4据え置きなのは少し残念(すでにMarvellはPCIe Gen5対応コントローラーをリリースしている)。

AMX

 次はXeon向けのAMX。AMXそのものは昨年6月に命令セットのリファレンスドキュメントが公開されており、これをベースに昨年連載569回で紹介したわけだが、今回正式に発表になったところでは、例えばVNNIを利用した場合に比べて8倍に高速化される、としている。

ちなみに先の記事では、あるいはXe Coreを利用するのでは? と書いたが、少なくともSapphire Rapidsでは独立したアクセラレーターとしての実装になる

 理屈は以前説明した通りで、行列を丸ごと格納できるタイルというレジスターを用意すると、このタイル同士での演算を行ない、結果をまたタイルに突っ込んで返してくれるという仕組みだ。このタイルを利用した別のアクセラレーターを利用することも可能な実装になっているという話であった。

タイル同士で演算を行ない、結果をまたタイルに返してくれる。タイルとの煩雑なデータのやり取りが発生するが、これを高速に処理するための命令も実装される

これは今すぐなにか計画があるというわけではなく、タイルとコプロセッサーの間が論理的には分割されており、別種のアクセラレーターを組み込むことも可能という話。将来的にはGNAがこれに統合されそうな気もする

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン