このページの本文へ

株式会社Laboro.AI、オリジナル日本語版BERTモデルを公開

株式会社Laboro.AI
2020年04月17日

  • この記事をはてなブックマークに追加
  • 本文印刷

株式会社Laboro.AI
260万超のWebページからテキスト情報を事前学習

株式会社Laboro.AIは、近年AI自然言語処理の分野で注目を集めるアルゴリズムBERTを独自に事前学習させた日本語版モデルを開発し、オープンソースとして公開いたしました。 <今回のポイント> ・︎ 約4,300のWebサイト、計260万以上のWebページのテキスト情報を学習 ・︎ 既存に公開されている日本語版モデルと並んで高い精度結果を確認 ・︎ AIによる文章分類や質問回答など、自然言語処理分野での活用可能性






プレスリリース概要

オーダーメイドによるAI・人工知能ソリューション『カスタムAI』の開発・提供およびコンサルティング事業を展開する株式会社Laboro.AI(ラボロエーアイ、東京都中央区、代表取締役CEO椎橋徹夫・代表取締役CTO藤原弘将。以下、当社)は、研究開発の一環として、近年AIの自然言語処理領域で注目を集めるアルゴリズムBERT(Bidirectional Encoder Representations from Transformers)を、独自に収集したWebテキスト情報をもとに事前学習させたオリジナル日本語版モデルを開発し、オープンソースとして公開いたしました。

このモデルは、約4,300のWebサイト、計260万以上のWebページに掲載されていたテキスト情報を独自に収集したコーパス(言語データベース)を用いて事前学習させたもので、当社で行った文章分類などの検証結果では、一般的なデータに基づくモデルの精度と並んで高い性能を持つことが確認でき、この度、広く公開させていただくことといたしました。

当社では今後も、AIに関わる各種技術領域での研究開発に取り組んでいくほか、機械学習技術を用いたオーダーメイドAIソリューション『カスタムAI』をより多くの産業の企業様に導入いいただくことを目指すとともに、イノベーション創出のパートナーとして、引き続き精進してまいります。




< -背景- AI自然言語処理とBERT >

AI(機械学習)の技術領域のひとつである自然言語処理は、人が日常的に使用する言葉や文字など、テキスト情報をAIに処理させる分野です。手書き文字の読み取りを行うOCRやテキストでの会話を実現するチャットボットのほか、近年普及しているスマートスピーカーにもこの自然言語処理技術が活用されており、AI活用の主要領域のひとつと言えます。

2018年10月にGoogleが発表した自然言語処理モデルBERT(Bidirectional Encoder Representations from Transformers)は、この自然言語処理に大きなブレイクスルーをもたらしたと言われる自然言語処理アルゴリズムです。それまでのものと比較してBERTは、

文章の文脈を理解することに長けている
文章分類や感情分析など様々なタスクに応用できる(ファインチューニング)
インターネット上にある大量のデータから事前学習でき、データ不足を課題としにくい

などの画期的な特徴がある上、実際に様々な検証で高い精度を示すアルゴリズムであることが証明されています。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
※BERTについては、学術研究論文”BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding “(https://arxiv.org/pdf/1810.04805.pdf)などで、詳細を確認いただけます。



<-開発内容- Laboro.AI日本語版BERTモデルについて>

上記のような優れた特徴をもつ自然言語処理技術であるBERTを、日本の多様なビジネスシーンでも活用いただくため、今回Laboro.AIでは、主に英文への対応が中心であったBERTを日本語の文章にも対応できるよう、またより精度の高い処理を実現できるよう研究開発を行い、この度、独自のBERT事前学習モデル(以下、Laboro.AI BERTモデル)を開発し、オープンソースとして広く公開することといたしました。

Laboro.AI BERTモデルは、インターネット上で公開されているニュースサイトやブログなど、フォーマルなものからインフォーマルなサイトまで、計4,307のWebサイト、ページ数にして2,605,280ページに掲載されているテキスト情報を収集し、事前学習させたものです。Googleが公開したオリジナルの英語版BERTが13GB分の英語文献データセットで学習させているのに対して、Laboro.AI BERTモデルもほぼ同量の12GBに相当する日本語の言語情報データで学習を行なっており、当社で実施した検証(※)でも高い精度でのタスク処理が可能であることを確認いたしました。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
※Laboro.AI BERTモデルの性能評価やその検証内容については、別紙(https://prtimes.jp/a/?f=d27192-10-pdf-1.pdf)をご覧ください。



< -今後の展開- Laboro.AI BERTモデルの活用可能性 >

Laboro.AI BERTモデルは、現在もAI活用が積極的に行われている次のようなシーンでのタスク処理の精度をより高めることが期待されます。


社内に大量に蓄積された文書の整理や分類
専門的なキーワードやそれに類似するワードを含む文書、メールなどテキストデータの分類
チャットボットなど、テキスト情報をベースにしたQ&Aシステムへの応用
スマートスピーカー等、声による入力・出力など、音声技術への応用

また、当社はオーダーメイドによるAI「カスタムAI」の開発を主力事業としており、様々な業界・企業様とのAIプロジェクトで今般の研究開発の成果を活かしてまいります。



< Laboro.AI BERTモデルのご利用について >

Laboro.AI BERTモデルは、国際的な著作権ライセンスであるクリエイティブコモンズのCC BY-NC 4.0(Attribution-NonCommercial 4.0 International)の下で利用いただくことができ、非商用目的に限り無料で公開しております。利用方法およびダウンロードは、弊社Webサイト(https://laboro.ai/column/laboro-bert/)にてご確認いただけます。

商用目的での利用をご希望の方は、当社ホームページのお問い合わせフォーム(https://laboro.ai/contact/other/)よりご連絡ください。



株式会社 Laboro.AIについて

(株)Laboro.AIは、「効く、AIを」をコンセプトに、オーダーメイドのAIソリューション「カスタムAI」の開発・提供を事業とし、アカデミア(学術分野)で研究される先端のAI・機械学習技術のビジネスへの実用化をミッションに掲げています。業界に隔たりなく、様々な企業のコアビジネスの改革を支援しており、その専門性から支持を得る国内有数のAIスペシャリスト集団です。

<会社概要>
社 名:株式会社Laboro.AI(ラボロ エーアイ)
事 業:機械学習を活用したオーダーメイドAI開発、
およびその導入のためのコンサルティング
所在地:〒104-0061 東京都中央区銀座8丁目11-1
GINZA GS BLD.2 3F
代表者:椎橋徹夫(代表取締役CEO)
藤原弘将(代表取締役CTO)
設 立:2016年4月1日
URL : https://laboro.ai/




資料ダウンロード

・別紙(Laboro.AI BERT モデルの精度評価について):https://prtimes.jp/a/?f=d27192-10-pdf-1.pdf
・プレスリリース全文(PDF):https://prtimes.jp/a/?f=d27192-10-pdf-0.pdf

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

1
【Amazon.co.jp限定】HP ノートパソコン 15-fd 15.6インチ インテル Core 5 120U メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載 カメラシャッター 指紋認証 薄型 Copilotキー搭載 ナチュラルシルバー (BJ0M5PA-AAAI)
【Amazon.co.jp限定】HP ノートパソコン 15-fd 15.6インチ インテル Core 5 120U メモリ16GB SSD512GB Windows 11 Microsoft Office 2024搭載 WPS Office搭載 カメラシャッター 指紋認証 薄型 Copilotキー搭載 ナチュラルシルバー (BJ0M5PA-AAAI)
¥181,469
2
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - ミッドナイト
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - ミッドナイト
¥177,333
3
【Amazon.co.jp限定】ASUS ノートパソコン Vivobook 15 M1502NAQ 15.6インチ AMD Ryzen 7 170 メモリ16GB SSD 512GB Windows 11 重量1.7kg Wi-Fi 6E クワイエットブルー M1502NAQ-R7165BUW
【Amazon.co.jp限定】ASUS ノートパソコン Vivobook 15 M1502NAQ 15.6インチ AMD Ryzen 7 170 メモリ16GB SSD 512GB Windows 11 重量1.7kg Wi-Fi 6E クワイエットブルー M1502NAQ-R7165BUW
¥109,800
4
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
¥35,130
5
【Amazon.co.jp限定】Lenovo Chromebook クロームブック Duet 11 10.95インチ MediaTek Kompanio 838 プロセッサー​搭載 メモリ8GB eMMC 128GB 重量1.0kg 83HH000TJP パソコン
【Amazon.co.jp限定】Lenovo Chromebook クロームブック Duet 11 10.95インチ MediaTek Kompanio 838 プロセッサー​搭載 メモリ8GB eMMC 128GB 重量1.0kg 83HH000TJP パソコン
¥69,980

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,890
2
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥2,386
3
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥740
4
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,080
5
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
6
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
¥1,599
7
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
¥1,899
8
KIOXIA(キオクシア)【日本製】SDカード 128GB SDXC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA128G
KIOXIA(キオクシア)【日本製】SDカード 128GB SDXC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA128G
¥2,374
9
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
【Amazon.co.jp限定】 ロジクール 静音 ワイヤレス トラックボール マウス M575SPd Bluetooth Logibolt 無線 windows mac iPad OS Chrome トラックボールマウス ブラック M575 M575SP 国内正規品 ※Amazon.co.jp限定 壁紙ダウンロード付き
¥6,450
10
CIO フラットスパイラルケーブル CtoC 1m (Type-C/USB-C) PD 急速充電 平型 磁石 マグネット吸着 まとまる 充電ケーブル PD 240W データ転送 480Mbps (ライトブラック, 1m)
CIO フラットスパイラルケーブル CtoC 1m (Type-C/USB-C) PD 急速充電 平型 磁石 マグネット吸着 まとまる 充電ケーブル PD 240W データ転送 480Mbps (ライトブラック, 1m)
¥1,980

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン