米インテル、ISSCCでプロセッサーの低消費電力化と高性能化を両立する新技術を発表

2002年02月05日 14時10分更新

文● 編集部　佐々木千之

米インテル社は4日(米国時間)、サンフランシスコで開催中のISSCC(国際固体回路会議)において、プロセッサーの低消費電力化と高性能化を両立させる回路設計技術や不揮発性メモリー、次世代Itaniumプロセッサー“McKinley(マッキンリー)”のキャッシュメモリー技術など3分野について計11の論文発表を行なった。

0.13μmで5GHz動作のプロセッサーを可能にする回路設計技術

米インテルのジャスティン・ラットナー(Justin Rattner)氏は、ハイパフォーマンスと低消費電力を両立する新しい回路設計技術3つを発表した。

1つがシリコン回路基板に印加する“Body Bias(ボディーバイアス)”に関する研究。半導体回路において、製造プロセスが微細化してダイ上のトランジスター数が増えると、トランジスターが動作しない時に流れる電流(リーク電流)を抑えるために、ダイに逆方向の電圧(逆バイアス)をかけると効果があることが知られている。今回インテルは、トランジスターが動作する際に順方向のバイアスを、動作していないときには逆バイアスをかけることによって、回路の消費電力を抑えつつ高速に動作可能になることを発表した。

0.15μmプロセスで製造した660万のCMOSトランジスターに順バイアスを印加したときとしない場合の、電圧と動作速度のグラフをみると、1GHzで動作させるために、バイアスを印加しなければ1.25V必要だったものが、順バイアスを印加することで1.1Vですみ、動作電力を23％低減できたという。また、トランジスターが動作していないときには、逆バイアスをかけることで、スタンバイ時の電力を3.5分の1に抑えられた。これを組み合わせることで、これまでよりも低消費電力で高性能を得られるとしている。


米インテルによるBody Biasの資料。右側のグラフは、バイアスなしでは1GHzで動作させるために1.25V必要だったものが、450mAの順方向バイアスをかけることによって1.1Vで1GHz動作するようになったことを示している。1GHz動作時の消費電力を比較すると、順方向バイアスをかけた方が23％少ないという

もう1つが“Adaptive Body Bias(アダプティブボディーバイアス)”と呼ぶ技術。これはチップの性能がある一定の基準内に入るように、Body Bias(順方向バイアス)を調整するというもの。Adaptive Body Biasを適用すれば、従来は性能(※1)を満たさず不良品となっていたチップを、十分な性能を持つ良品チップとして利用できるようになるという。インテルの示した資料によれば、Adaptive Body Biosを適用することで、100％のイールド(※2)を達成したという。また、単に良品となっただけではなく、97％は最高レベルの周波数で動作させることができたという。この技術によって、チップ製造コストを抑え、高い性能のチップを量産することができるとしている。

※1 この場合は、そのチップの動作周波数や、動作時の熱容量、リーク電流が、それぞれ決められた範囲内にあることを指す。

※2 製造したチップのうち、製品として使えるものがどのくらいあるかを示す率。良品率。歩留まり。


Adaptive Body Biasの資料。右のグラフにおいて、横軸(動作周波数：数値は正規化されている)が1より大きく、かつ斜めに走っている熱密度限界線よりも左側の台形で囲まれた部分が、良品の範囲。バイアスをかけない場合(ネズミ色の◆)と比較して、Adaptive Body Biasを印加することで、台形内に収まっていることが分かる。特に、同じシリコン上に形成した異なるダイに、それぞれのダイに適したAdaptive Body Biasを印加すると、97％のダイが最高レベルの性能を発揮できるという(赤色の■)

Adaptive Body Biasの資料。右のグラフにおいて、横軸(動作周波数：数値は正規化されている)が1より大きく、かつ斜めに走っている熱密度限界線よりも左側の台形で囲まれた部分が、良品の範囲。バイアスをかけない場合(ネズミ色の◆)と比較して、Adaptive Body Biasを印加することで、台形内に収まっていることが分かる。特に、同じシリコン上に形成した異なるダイに、それぞれのダイに適したAdaptive Body Biasを印加すると、97％のダイが最高レベルの性能を発揮できるという(赤色の■)

3つめは“Complementary Signal Generator(CSG)”という、ALU向けの回路に関する発表。ALUはCPUの中で最も高速処理が要求される部分で、従来のALUでは“Domino回路”と呼ぶ、トランジスターを大量に使う回路が使われてきたという。これに対してCSGは、Domino回路と同じ機能を半分のトランジスター数でこなすことができるもので、トランジスター数が少ない分、消費電力、発熱、ダイ上の回路面積の点で有利だという。インテルが示した資料によると、0.13μmプロセスで製造したCSG採用のALUが、1.1Vの電圧において6.5GHz、1.5Vでは9GHzで動作したという。


Conplementary Signal Generator(CSG)を使用したALUの性能グラフ(左)。1.1Vで6.5GHz、1.5Vでは9GHzで動作している。右のグラフは各電圧で動作しているときの、全体の消費電力とリーク電流

そして、Body BiasとAdaptive Body Bias、およびCSG採用のALUを組み合わせて試作した疑似プロセッサー(整数演算回路)を、室温(30度)において5GHzで動作させることができたという。インテルでは室温で5GHz動作するプロセッサーはこれが世界初のものだとしている。


Body Bias、Adaptive Body Bias、CSG採用ALUの各技術を組み合わせて試作した疑似プロセッサー(整数演算回路)。0.13μmプロセスで製造したもので、室温(30度)において5GHz動作したという

次世代不揮発性メモリーOUMのメモリーアレイ性能

OUM(Ovonics Unified Memory)は米Ovonyx社が開発したメモリー技術で、CD-RWやDVD-RAMなどと同様に、カルコゲン化物に熱を加えると結晶状態と非結晶(アモルファス)状態が変化(相変化)することを利用してデータを記録する不揮発性メモリー。高密度化しやすい、読み出し回数に制限がない、消費電力が小さい、書き換え回数が10¹²回と多い、ロジック回路との混載が容易、といった特徴を持つため、米インテルでは現在のフラッシュメモリーの後継となる不揮発性メモリーとして開発を続けている。


ISSCCで初めて公開した、インテルのOUMメモリーの構造。スイッチとしてダイオードを使うことで構造が簡素化できたという


OUMの4Mbitメモリーアレイ中のセルにおける、値のセット時とクリアー時の抵抗値の分布グラフ。抵抗値の差によってデータの有無を認識するため、セット時とクリアー時の抵抗値に差があるほど良い

日本では2001年12月に、今回ISSCCで発表したステファン・ライ(Stefan Lai)氏がプレス向けに技術説明会を開催し、OUMの単体セルの性能について発表していた。今回のISSCCでは、OUMセルの構造を公開し、0.18μmプロセスで製造した4Mbitメモリーアレイの性能を発表した。メモリーアレイとしてきちんと動作していることが確認できたが、現在の0.18μmプロセスのものでは、セル1つを書き換えるのに必要な電流が1mA以上と高すぎるという。今後は0.13μmプロセスに移行し、さらにテストを続けるとしている。


インテルが試作した4MbitOUMメモリーアレイのダイ画像。0.18μmプロセスで製造したものだが、1年後をめどに0.13μmプロセスに移行してテストを続けるという

McKinleyのキャッシュメモリー技術

インテルのジョン・クロフォード(John Clawford)氏が発表したのは、2002年半ばにリリース予定の次世代Itanium“McKinley”のキャッシュメモリー技術について発表した。インテルでは、McKinleyは現行のItanium(Merced)と比較して、同じプログラムを走らせた場合1.5～2倍の性能が得られるとしている。これは、システムバスのバンド幅を毎秒2.1GB(266MHz×64bit)から毎秒6.4GB(400MHz×128bit)と3倍に引き上げたことや、Issue Port(命令を発行するポート)を8から11に増やしたこと、別ボードとなっていた3次キャッシュをオンダイ化したことによる。これらのアーキテクチャーについては、2001年8月に開催した“Intel Developer Forum Fall 2001”で公開していた。


McKinleyのプロセッサーモジュールの画像。McKinleyは2002年の半ばに出荷予定で、すでに2001年の2月からサンプル出荷を行なっているという


現在のItanium(Merced)とMcKinleyのアーキテクチャーの違いをまとめた図。Merced用に最適化したプログラムでも、McKinleyではよりより高速に動作するという

このISSCCでの発表では、McKinleyの高速化のためにキャッシュメモリーで採用した技術が中心となった。1次キャッシュメモリーでは、Mercedで2または3サイクルあったアクセス遅延を1サイクルに高速化し、15～25％程度パフォーマンスが向上した。2次キャッシュメモリーではMercedの96KBから256KBに容量を増やしたほか、バンド幅を毎秒64MBに高速化した。最も技術革新がなされたのは3次キャッシュメモリーで、新しいキャッシュデザインを採用したことで、キャッシュ効率(※3)が従来の約70％から約85％に向上し、同じ容量を得るために必要なダイ面積も約20％減ったという。また、これまでキャッシュメモリーは矩形で確保する必要があったが、今回インテルが採用したデザインでは矩形にする必要がなく、ダイ上の柔軟な配置が可能になったという。

※3 ここでいうキャッシュ効率とは、ダイ上にキャッシュメモリーが占める面積のうち、実際にメモリーとして使用している割合を指す。