rinna社、日本語に特化した13億パラメータのGPT言語モデルを公開
rinna株式会社
~商用利用可能なライセンスで日本語のNLPコミュニティに貢献~
rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化した13億パラメータのGPT言語モデルを開発し、公開しました。
■背景
rinna社はこれまでに、日本語の自然言語処理 (NLP) に特化したGPT (3.3億パラメータ) やBERT (1.1億パラメータ) の事前学習モデルを公開し、多くの研究・開発者にご利用いただいています。最近のNLPに関する研究では、モデルのパラメータ数が多いほど高い性能であることが知られています。
そこでrinna社は、これまでに公開してきたモデルより大規模な13億パラメータを持つ日本語に特化したGPT言語モデルを開発し、日本語のNLPコミュニティに貢献するために、この言語モデルをNLPモデルライブラリ Hugging Face に商用利用可能なMITライセンスで公開しました。
■ Hugging Face URL
https://huggingface.co/rinna/japanese-gpt-1b
■日本語GPTモデルの機能
言語モデルは、会話や文章の「人間が使う言葉」を確率としてモデル化します。優れた言語モデルとは、確率を正確に推定できるものを指します。
例えば、
“確率(吾輩は猫である)>確率(吾輩が猫である)”
と推定できることが、言語モデルの能力です。
GPTは、単語の確率の組み合わせから次の単語の確率を計算する言語モデルです。例えば、“確率(吾輩は猫である) = 確率(吾輩)×確率(は|吾輩)×確率(猫|吾輩,は)×確率(で|吾輩,は,猫)×確率(ある|吾輩,は,猫,で)”のような方法で計算を行います。この性質を用いて、GPTは「吾輩は」という単語を入力したとき、次の単語として確率が高い「猫」を予測することができます。
今回、rinna社が公開した日本語GPTは、一般的な日本語テキストの特徴を持つ高度な日本語文章を自動生成できます。例えばGPTに入力するテキスト(テキストプロンプト)を工夫することで以下のような文章生成、分類、翻訳などの出力を得ることができます(出力は確率に基づき毎回異なるテキストが生成されます)。
■rinna社の日本語GPTモデルの特徴
学習データとして、日本語のC4 ( https://huggingface.co/datasets/allenai/c4 )、CC-100 ( http://data.statmt.org/cc-100/ ) 、Wikipediaのオープンソースデータを使用しています。
モデルは十分に学習されており、その性能は約14 perplexityを達成しています。14 perplexityとは、GPTが次の単語を予測するときに、単語候補の数を14に絞れる性能を意味します。
利用者が簡単にアクセスできるように、開発したモデルを Hugging Face に商用利用可能なMITライセンスで公開しています。
利用者の目的に沿った多様なタスク(ドメインに特化した文章生成、分類、翻訳など)を、テキストプロンプトやファインチューニングにより実現できます。
■今後の展開
rinna社の研究チームが開発する大規模な事前学習モデルは、すでに当社の製品に広く利用されています。当社は今後も、AIに関する研究を続け、高性能な製品を開発していきます。また、研究・開発コミュニティに貢献するために、研究成果を公開していく予定です。さらに、他社との協業も進めることで、AIの社会実装の拡大を目指します。
【rinna株式会社について】
MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAIキャラクター開発企業です。AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャット」や、作りたいキャラクターの性格や口調をAIに反映させる「Style Transfer Conversation」などの技術を開発しています。これらの技術を応用し、LINEで会話できるAIチャットボット「りんな」、会話や音声をカスタマイズしてキャラクター性を持ったAIの開発ができる法人向け製品「Rinna Character Platform」、マイAIキャラクターを育成できるアプリ「キャラる」などを提供しています。
代表取締役:ジャン“クリフ”チェン
所在地:東京都渋谷区渋谷2-24-12 渋谷スクランブルスクウェア39F WeWork
Webサイト:https://rinna.co.jp/
業務内容:AIキャラクターサービスの研究・開発・提供