このページの本文へ

rinna社、日本語に特化したGPT-2の大規模言語モデルを開発しオープンソース化

rinna株式会社
2021年04月07日

  • この記事をはてなブックマークに追加
  • 本文印刷

rinna株式会社
GitHubとHuggingFaceで言語モデルとトレーニングコードを公開

rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン“クリフ”チェン、以下rinna社)は、日本語に特化したGPT-2の大規模言語モデルを構築し、オープンソースとして公開しました。


■背景
rinna社は、MicrosoftのAI&リサーチ部門でAIチャットボットの研究を行っていたチームがスピンアウトして2020年6月に設立したAI開発企業です。ディープラーニング技術を活用し、AIが文脈に応じた会話文を自動生成して人間と自然に会話する「共感チャットモデル」、AIが話し声や歌声で豊かな感情表現を可能にする「音声合成システム」などの技術を発表してきました。これらの最新技術は、当社が運営するAIチャットボット「りんな」や、会話内容や音声表現をカスタマイズしてキャラクター性を持たせたAIチャットボットである「AIキャラクター」の開発に応用され、企業のマーケティングなどにお使いいただいています。


このたび、製品開発のための自然言語処理(NLP)の実験過程で、日本語に特化したGPT-2の大規模言語モデルを構築しました。日本語のNLP研究コミュニティに貢献するために、開発した言語モデルと、研究者が自分のマシンで実験結果を再現するためのトレーニングコードを、GitHub、およびNLPモデルライブラリHuggingFaceで、オープンソースとして公開します。


HuggingFace: https://huggingface.co/rinna/japanese-gpt2-medium
GitHub: https://github.com/rinnakk/japanese-gpt2


■日本語GPT-2モデルの機能
言語モデルは、言語データの機械学習をもとに、会話や文章の「人間が使う言葉らしさ」を確率としてモデル化したものです。優れた言語モデルとは確率を正確に推定できるものを指します。例えば、 “確率(吾輩は猫である)>確率(吾輩が猫である)” と推定できるのが、言語モデルの能力です

GPT-2は、単語レベルの確率の組み合わせから文の確率を計算する言語モデル(自己回帰言語モデル)です。例えば、 “確率(吾輩は猫である) = 確率(吾輩) x 確率(は|吾輩) x 確率(猫|吾輩,は) x 確率(で|吾輩,は,猫) x 確率(ある|吾輩,は,猫,で)” のような方法で推定を行います。この能力を使って、GPT-2は「吾輩は猫で」という接頭辞(Prefix)を与えられたとき、確率の推定から次にくる単語として「ある」を選択し、文章を自動生成できます。

今回、rinna社が公開した日本語GPT-2モデルは、一般的な日本語テキストの特徴を有した高度な日本語文章を自動生成できます。ユーザー/研究者は、特定のテキストデータを微調整して、このモデルから独自のモデルを作成することも可能です。

例えば、Prefixとして「誰も到達していない人工知能の高みへ、ともに」という文章が与えられたとき、特定のコンテキスト(デモ1:講演の感想、デモ2:書籍の紹介)で応答文を生成(※1)するように、微調整できます。

【デモ1】講演の感想のコンテキストで文章生成


【デモ2】書籍の紹介のコンテキストで文章生成

(※1)上記のデモでは生成する文章の文字数上限を設定しており、実際に生成される全文ではありません。

■rinna社の日本語GPT-2モデルの特徴
当社の日本語GPT-2モデルは、以下の特徴があります。

トレーニングデータとして、CC-100(http://data.statmt.org/cc-100/)のオープンソースデータを使用しています。
Tesla V100 GPUを用いて、70ギガバイトの日本語テキストを約1カ月の長期間にわたってトレーニングしました。その結果、このモデルの性能は約18 perplexity (※2)を達成しました。モデルは十分にトレーニングされており、汎用性があると言えます。
ユーザー/研究者が簡単にアクセスできるように、開発したモデルをHuggingFaceに公開しています。また、研究者が自分のマシンで当社の結果を再現できるように、トレーニングコードをGitHubに公開しています。
今回公開したのは、GPT2-mediumと定義される中規模サイズのモデルです。今後、パフォーマンスとコストのトレードオフに基づいてユーザー/研究者が最善の選択をできるよう、異なるサイズのモデルも公開する予定です。また、異なるデータでトレーニングした新しいモデルの公開も計画しています。

(※2)18 perplexityは、GPT-2モデルが前に与えられた単語から次の単語を予測するときに、正しいものを含む18のオプションだけを残すことができる性能を意味します。

■今後の展開
rinna社の研究チームが開発している大規模な言語モデルは、すでに当社のプロダクトに広く使用されています。当社は今後も、異なるテキストスタイルや異なるデータ量を含む、より高精度でより大規模な言語モデルの研究開発を続け、AIチャットボットの能力を高めていきます。また、日本語の研究コミュニティのために、これらのモデルをオープンソース化していきます。

【会社概要】
社名:rinna株式会社
所在地:東京都渋谷区渋谷2-24-12 渋谷スクランブルスクウェア39F WeWork
設立年月日:2020年6月17日
代表取締役:ジャン“クリフ”チェン
Webサイト:https://corp.rinna.co.jp/
業務内容:AIサービスの研究・企画・開発・運営・販売

カテゴリートップへ

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,390
2
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥660
3
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥980
4
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
¥5,280
5
CIO フラットスパイラルケーブル CtoC 1m (Type-C/USB-C) PD 急速充電 平型 磁石 マグネット吸着 まとまる 充電ケーブル PD 240W データ転送 480Mbps (ライトブラック, 1m)
CIO フラットスパイラルケーブル CtoC 1m (Type-C/USB-C) PD 急速充電 平型 磁石 マグネット吸着 まとまる 充電ケーブル PD 240W データ転送 480Mbps (ライトブラック, 1m)
¥1,780
6
Amazon Kindle Paperwhite (16GB) 7インチディスプレイ、色調調節ライト、12週間持続バッテリー、広告なし、ブラック
Amazon Kindle Paperwhite (16GB) 7インチディスプレイ、色調調節ライト、12週間持続バッテリー、広告なし、ブラック
¥18,980
7
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
8
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
¥1,590
9
Amazon Kindle - 目に優しい、かさばらない、大きな画面で読みやすい、6週間持続バッテリー、6インチディスプレイ電子書籍リーダー、ブラック、16GB、広告なし
Amazon Kindle - 目に優しい、かさばらない、大きな画面で読みやすい、6週間持続バッテリー、6インチディスプレイ電子書籍リーダー、ブラック、16GB、広告なし
¥13,980
10
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
¥5,645

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン