このページの本文へ

スパコン「富岳」で訓練した大規模言語モデルが無償公開

2024年05月14日 06時57分更新

文● MIT Technology Review Japan

  • この記事をはてなブックマークに追加
  • 本文印刷

東京工業大学、東北大学、富士通、理化学研究所、名古屋大学、サイバーエージェント、コトバテクノロジーズの共同研究チームは、理化学研究所のスーパーコンピュータ「富岳」を用いて訓練した日本語能力に優れた大規模言語モデル「Fugaku-LLM」を公開した。研究者は、オープンソースソフトの公開に使われているプラットフォームである「ギットハブ(GitHub)」や「ハギングフェイズ(Hugging Face)」を通じて、研究および商業目的で利用できる。

東京工業大学、東北大学、富士通、理化学研究所、名古屋大学、サイバーエージェント、コトバテクノロジーズの共同研究チームは、理化学研究所のスーパーコンピュータ「富岳」を用いて訓練した日本語能力に優れた大規模言語モデル「Fugaku-LLM」を公開した。研究者は、オープンソースソフトの公開に使われているプラットフォームである「ギットハブ(GitHub)」や「ハギングフェイズ(Hugging Face)」を通じて、研究および商業目的で利用できる。 Fugaku-LLMは130億パラメーターの規模のモデルであり、サイバーエージェントが収集した独自の日本語学習データと英語のデータなどを訓練に用いているため、透明性と安全性を確保しつつ日本語性能に優れているという。モデルの訓練では、富岳の1万3824台の計算ノードを用いて、日本語コンテンツや英語、数学、コードなど約4000億トークンを学習したが、そのうちの約60%を日本語コンテンツが占める。国産かつ独自のデータで学習をしているオープンなモデルにおいて日本語ベンチマーク「Japanese MT-Bench」で最高性能を達成。特に人文社会系のタスクでは高い性能を発揮し、敬語など日本語の特徴を踏まえた自然な対話をすることなどが期待されるとしている。 研究チームは今回、深層学習フレームワークを富岳に移植し、トランスフォーマーの性能を富岳上で最適化するとともに、並列分散学習手法を開発し適用することで、富岳で大規模言語モデルの訓練をする際の演算速度を従来の6倍に高速化。さらに、集団通信を最適化して通信速度を3倍高速化することで、富岳のCPUを用いて現実的な時間内で大規模言語モデルを訓練することを可能にした。 大規模言語モデルの学習には通常、GPUが用いられるが、現在、世界中でGPU不足が起こっており、最新のGPUを大量に入手することは困難となっている。そうした中、国産CPUを中央演算処理装置とした富岳を用いて大規模言語モデルを学習できたことは、日本の半導体技術の活用や、経済安全保障の観点からも重要な成果だとしている。

(中條)

カテゴリートップへ

アスキー・ビジネスセレクション

ASCII.jp ビジネスヘッドライン

ピックアップ