今回はRaptor Lakeの故障問題について説明したい。また、前回説明したXeon 6のパッケージで少しだけ衝撃的な話があったので、記事末で紹介しよう。
長引くRaptor Lakeの故障問題
予防的緩和策として対応BIOSの配布が始まる
意外に書きにくいのがこの問題。別にインテルに忖度してるわけではなく、「まだ進行中の事案で、しかもいつ決着がつくかわからない」から、という単純な理由である。この手の話は、決着がついた後の方が書きやすい。とはいえ騒ぎが始まってからすでに半年が過ぎているので、現時点で判明していることと、とりあえずの対策をまとめて説明したい。
2023年12月あたりから「最初は普通に動いていたのに、2ヵ月くらいしたら突然ブルースクリーンが出るようになって、その後は再インストールしても、なにをしても復活しない」という話が出てくるようになり、2024年3月にはさまざまな掲示板で頻繁にそうした書き込みが見られるようになった。
ZDNet Koreaは4月8日の記事で、鉄拳8で"Not enough memory"というエラーメッセージが出て強制終了する(ほかにもUnreal engineを使うさまざまなゲームで同種のエラーが発生する)話や、販売店がある時から急にRaptor LakeのK/KS SKUの交換頻度が上がったと報告している話などを交えつつ、インテルから「調査を開始した」との返答を得たと報じている。
これに先立ち、インテルはSupport Communityページで2月27日に「13/14世代のK/KSプロセッサーが、特定のワークロードで問題が起きているという報告を認識しており、現在分析をしている」と公開した。この投稿をしたのはインテルのクライアント・コンピューティング部門で、Desktop&WorkstationのCommunication Managerを務めるThomas Hannaford氏であり、以後このHannaford氏がこの問題について随時投稿を上げる形が続いている。
次にHannaford氏が投稿したのは5月2日で、まだ問題の分析をしている最中としたうえで、問題の根本要因を突き止めるまでの暫定的な対策として、CPUのパラメーターを以下のようにすることを推奨している。
- CEP (Current Excursion Protection):有効
- eTVB (Enhanced Thermal Velocity Boost):有効
- TVB (Thermal Velocity Boost):有効
- TVB Voltage Optimizations:有効
- ICCMAX Unlimited Bit:無効
- TjMAX Offset:0
- C-states:有効
- ICCMAX:プロセッサにあわせる。400Aを超えないこと
- ICCMAX_App:プロセッサーにあわせる
- Power Limits:プロセッサーにあわせる
ここで「プロセッサーに合わせる」というのはSKUごとに数字が異なるからで、これはデータシートに記載された数字を使え、という話である。要するにまだ理由は特定できないが、「現象的にはオーバークロックのやり過ぎで内部回路が損傷した状況に近いらしい」(これは当然文章には書かれていないが、行間を読むとそういうことである)ので、それぞれのプロセッサーの定格動作で使うように、という指示である。
これに併せて、インテルはマザーボードベンダー各社に新しいIntel Baseline Profileを簡単に設定するためのBIOSの配布を要請。これを利用することで、簡単にインテルのデフォルトに設定できるようになった。
6月18日の投稿では、具体的にICCMAXやICCMAX_app、Power Limitなどをわかりやすくまとめた表も示された。
これに併せて、以下の3点が報告された。ただまだ根本原因は掴めていないままであることも確認された。
- 従来のBIOSの場合、プロセッサーが高温(なので本来さらに電圧や周波数を上げてはいけない)状態でも、ターボの動作周波数や電圧での動作を許してしまう設定になっていることが確認された。
- 調査の過程で、BIOSの問題とは別に、eTVB(Enhanced Thermal Velocity Boost)のアルゴリズムにバグがあることを発見した。このバグも、動作の不安定さの要因になり得るが、根本原因ではない(つまり大本の問題とは別に、eTVBにもバグがあったということ)。
- 上のBIOS問題を解決するために、最新BIOSへのアップデートを推奨する。
この連載の記事
-
第800回
PC
プロセッサーから直接イーサネット信号を出せるBroadcomのCPO Hot Chips 2024で注目を浴びたオモシロCPU -
第799回
PC
世界最速に躍り出たスパコンEl Capitanはどうやって性能を改善したのか? 周波数は変えずにあるものを落とす -
第798回
PC
日本が開発したAIプロセッサーMN-Core 2 Hot Chips 2024で注目を浴びたオモシロCPU -
第797回
PC
わずか2年で完成させた韓国FuriosaAIのAIアクセラレーターRNGD Hot Chips 2024で注目を浴びたオモシロCPU -
第796回
PC
Metaが自社開発したAI推論用アクセラレーターMTIA v2 Hot Chips 2024で注目を浴びたオモシロCPU -
第795回
デジタル
AI性能を引き上げるInstinct MI325XとPensando Salina 400/Pollara 400がサーバーにインパクトをもたらす AMD CPUロードマップ -
第794回
デジタル
第5世代EPYCはMRDIMMをサポートしている? AMD CPUロードマップ -
第793回
PC
5nmの限界に早くもたどり着いてしまったWSE-3 Hot Chips 2024で注目を浴びたオモシロCPU -
第792回
PC
大型言語モデルに全振りしたSambaNovaのAIプロセッサーSC40L Hot Chips 2024で注目を浴びたオモシロCPU -
第791回
PC
妙に性能のバランスが悪いマイクロソフトのAI特化型チップMaia 100 Hot Chips 2024で注目を浴びたオモシロCPU -
第790回
PC
AI推論用アクセラレーターを搭載するIBMのTelum II Hot Chips 2024で注目を浴びたオモシロCPU - この連載の一覧へ