ファーウェイ(Huawei)とグーグルの研究者たちがそれぞれ、巨大な言語モデルのサイズを縮小して、商用アプリケーションで使えるようにすることに成功した。
言語モデルは、ますます大規模化する傾向にある。たとえば、昨年10月にグーグルが公開した「バート(BERT)」と呼ばれる言語モデルは、長年に渡って目標とされてきた自然言語処理分野での読解力ベンチマークをクリアしたが、大規模版のデータのパラメーター数は3億4000万にもなり、モデルを1回訓練をするだけで米国の家庭1世帯が50日間で使う電力が必要となる。その4カ月後、オープンAI(OpenAI)の「GPT-2」というモデルがバートをすぐに上回った。GPT-2は説得力のある文章の生成において優れた能力を発揮し、15億のパラメーターを使用していた。エヌビディアの最新かつ最大のモデルである「メガトロンLM(MegatronLM)」に至っては、83億ものパラメーターがある(そう、事態は手に負えない状況になってきているのだ)。
人工知能(AI)研究者たちはこのトレンドがもたらす結果についての懸念を強めている。6月に、マサチューセッツ大学アマースト校の研究グループが、このような大規模なスケールでモデルの開発や訓練をすることによる環境への悪影響を示した。同グループの試算によると、バートの訓練をすると、航空機によるニューヨークとサンフランシスコ間の往復飛行と同量の二酸化炭素が排出されるという。GPT-2とメガトロンLMに外挿して考えてみると、二酸化炭素放出量ははるかに大きいものになるだろう。また、このトレンドによってAI研究が一部の巨大テック企業に集中する流れが加速する恐れもある。リソースの乏しい学問の世界や国家は、計算に大きな費用がかかるモデルを使用したり、開発したりする手立てがないからだ。
こうしたことへの対応として、多くの研究者が既存モデルの能力を損なうことなく、モデルのサイズを縮小する研究に取り組んでいる。新たに発表された2つの論文では、パラメーター数が1億のバート小型版の実現に成功したと述べている。1つ目の論文は、ファーウェイの研究者らの作成による「タイニイバート(TinyBERT)」と呼ばれるモデルが、オリジナル版のバートの7分の1以下のサイズで、約10倍の速度を実現したうえで、オリジナル版とほぼ同等の言語理解力を発揮したとしている。2つ目はグーグルの研究者らが発表したもので、オリジナル版バートの60分の1以下のサイズを実現したが、言語理解力はわずかに劣るという結果を示した。
モデルを小規模化するために、いずれの研究チームも、「知識の蒸留」と呼ばれる一般的な圧縮手法の変形版を用いている。この手法では、縮小したい巨大なAIモデル(教師)を用いて、そのイメージ内ではるかに小さなAIモデル(生徒)を訓練する。訓練では両方のモデルに同じ入力をして、生徒側の出力が教師側の出力と同等になるまで調整を加えていく。
小型のモデルが実現すれば、最先端のAIを利用しやすくなることに加え、最新のAIの進歩を消費者向けデバイスに搭載しやすくなる。モデルをデバイスに搭載すると、消費者のデータをクラウドに送信する必要がなくなるので、速度とプライバシーの両方が向上する。特に自然言語モデルは、より強力なテキスト予測と言語生成により、スマートフォンのオートコンプリートをはじめとする無数のアプリケーションや、アレクサやグーグル・アシスタントといった音声アシスタントの性能を向上させる可能性がある。