rinnaは4月7日、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開した。
同社はMicrosoftのAI&リサーチ部門でAIチャットボットの研究を行なっていたチームがスピンアウトして2020年6月に設立したAI開発企業。文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表。AIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボット「AIキャラクター」の開発に応用されている。
新たに製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデル(機械学習をもとにした会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したもの)を構築。日本語のNLP研究コミュニティーに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開した。
日本語GPT-2モデルは、トレーニングデータとしてCC-100のオープンソースデータを使用。Tesla V100 GPUを用いて70GBの日本語テキストをおよそ1ヵ月にわたってトレーニングした結果、汎用性のあるデータを構築したという。公開したのはGPT2-mediumと定義される中規模サイズのモデル。今後、パフォーマンスとコストのトレードオフに基づいてユーザーや研究者が最善の選択をできるよう異なるサイズのモデルも公開する予定としている。