東京工業大学と産業技術総合研究所の共同研究チームは、生成AI(ジェネレーティブAI)の基盤となる、日本語能力に優れた大規模言語モデル「スワロー(Swallow)」を公開した。同モデルは現在公開されている日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能であるため、ビジネスに安心して用いることができるという。
東京工業大学と産業技術総合研究所の共同研究チームは、生成AI(ジェネレーティブAI)の基盤となる、日本語能力に優れた大規模言語モデル「スワロー(Swallow)」を公開した。同モデルは現在公開されている日本語に対応した大規模言語モデルとしては最大規模であり、オープンで商用利用が可能であるため、ビジネスに安心して用いることができるという。 研究チームは今回、英語の言語理解や対話で高い能力を持つメタのオープンな大規模言語モデル「ラマ(Llama)2」の日本語能力を拡張することでSwallowを構築した。Llama 2は事前学習データの約90%を英語が占めており、日本語の割合は全体の約0.10%に留まるため、英語で高い性能を示すにも関わらず、日本語の読み書きは苦手という弱点がある。 そこで同チームは、非営利団体のコモンクロール(Common Crawl)が配布しているアーカイブから日本語のテキストを独自に抽出・精錬し、約3121億文字からなる日本語Webコーパスを構築。Llama 2の「7B(70億パラメータ)」、「13B(130億パラメータ)」、「70B(700億パラメータ)」のモデルをベースに、同日本語Webコーパスと英語のコーパスを9:1で混ぜたデータで継続事前学習を実施し、元々の言語モデルの能力を活かしながら日本語能力の改善を目指した。 訓練を終えたモデルに対し、日本語に関するベンチマークデータで性能を評価したところ、7B、13B、70Bの全てのモデルで、ベースモデルよりも高い性能を確認。さらに、日本語コーパスのみで事前学習した同規模の日本語大規模言語モデルよりも高い性能を示すことを実証し、継続事前学習の有効性を明らかにした。 近年、オープンAI(OpenAI)の「チャットGPT(ChatGPT)」や「GPT-4」、グーグルの「パーム(PaLM)2」や「ジェミナイ(Gemini)」など、大規模言語モデルの研究開発が急速に進展。国内でも、自然言語処理や人工知能(AI)の研究開発の推進、大規模言語モデルのメカニズムの解明、安全保障上のリスク懸念、信頼できるAIの実現などの目的で日本語に強い大規模言語モデルの開発が進められている。だが、日本語に強く、オープンかつ高性能な大規模言語モデルは少なかった。 なお、今回公開するSwallowのライセンスはLlama 2の「LLAMA 2コミュニティライセンス」を継承しており、同ライセンスに従う限りにおいては、研究および商業目的での利用が可能である。(中條)