このページの本文へ

株式会社Laboro.AI、オリジナル日本語版BERTモデルを公開

株式会社Laboro.AI
2020年04月17日

  • この記事をはてなブックマークに追加
  • 本文印刷

株式会社Laboro.AI
260万超のWebページからテキスト情報を事前学習

株式会社Laboro.AIは、近年AI自然言語処理の分野で注目を集めるアルゴリズムBERTを独自に事前学習させた日本語版モデルを開発し、オープンソースとして公開いたしました。 <今回のポイント> ・︎ 約4,300のWebサイト、計260万以上のWebページのテキスト情報を学習 ・︎ 既存に公開されている日本語版モデルと並んで高い精度結果を確認 ・︎ AIによる文章分類や質問回答など、自然言語処理分野での活用可能性






プレスリリース概要

オーダーメイドによるAI・人工知能ソリューション『カスタムAI』の開発・提供およびコンサルティング事業を展開する株式会社Laboro.AI(ラボロエーアイ、東京都中央区、代表取締役CEO椎橋徹夫・代表取締役CTO藤原弘将。以下、当社)は、研究開発の一環として、近年AIの自然言語処理領域で注目を集めるアルゴリズムBERT(Bidirectional Encoder Representations from Transformers)を、独自に収集したWebテキスト情報をもとに事前学習させたオリジナル日本語版モデルを開発し、オープンソースとして公開いたしました。

このモデルは、約4,300のWebサイト、計260万以上のWebページに掲載されていたテキスト情報を独自に収集したコーパス(言語データベース)を用いて事前学習させたもので、当社で行った文章分類などの検証結果では、一般的なデータに基づくモデルの精度と並んで高い性能を持つことが確認でき、この度、広く公開させていただくことといたしました。

当社では今後も、AIに関わる各種技術領域での研究開発に取り組んでいくほか、機械学習技術を用いたオーダーメイドAIソリューション『カスタムAI』をより多くの産業の企業様に導入いいただくことを目指すとともに、イノベーション創出のパートナーとして、引き続き精進してまいります。




< -背景- AI自然言語処理とBERT >

AI(機械学習)の技術領域のひとつである自然言語処理は、人が日常的に使用する言葉や文字など、テキスト情報をAIに処理させる分野です。手書き文字の読み取りを行うOCRやテキストでの会話を実現するチャットボットのほか、近年普及しているスマートスピーカーにもこの自然言語処理技術が活用されており、AI活用の主要領域のひとつと言えます。

2018年10月にGoogleが発表した自然言語処理モデルBERT(Bidirectional Encoder Representations from Transformers)は、この自然言語処理に大きなブレイクスルーをもたらしたと言われる自然言語処理アルゴリズムです。それまでのものと比較してBERTは、

文章の文脈を理解することに長けている
文章分類や感情分析など様々なタスクに応用できる(ファインチューニング)
インターネット上にある大量のデータから事前学習でき、データ不足を課題としにくい

などの画期的な特徴がある上、実際に様々な検証で高い精度を示すアルゴリズムであることが証明されています。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
※BERTについては、学術研究論文”BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding “(https://arxiv.org/pdf/1810.04805.pdf)などで、詳細を確認いただけます。



<-開発内容- Laboro.AI日本語版BERTモデルについて>

上記のような優れた特徴をもつ自然言語処理技術であるBERTを、日本の多様なビジネスシーンでも活用いただくため、今回Laboro.AIでは、主に英文への対応が中心であったBERTを日本語の文章にも対応できるよう、またより精度の高い処理を実現できるよう研究開発を行い、この度、独自のBERT事前学習モデル(以下、Laboro.AI BERTモデル)を開発し、オープンソースとして広く公開することといたしました。

Laboro.AI BERTモデルは、インターネット上で公開されているニュースサイトやブログなど、フォーマルなものからインフォーマルなサイトまで、計4,307のWebサイト、ページ数にして2,605,280ページに掲載されているテキスト情報を収集し、事前学習させたものです。Googleが公開したオリジナルの英語版BERTが13GB分の英語文献データセットで学習させているのに対して、Laboro.AI BERTモデルもほぼ同量の12GBに相当する日本語の言語情報データで学習を行なっており、当社で実施した検証(※)でも高い精度でのタスク処理が可能であることを確認いたしました。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
※Laboro.AI BERTモデルの性能評価やその検証内容については、別紙(https://prtimes.jp/a/?f=d27192-10-pdf-1.pdf)をご覧ください。



< -今後の展開- Laboro.AI BERTモデルの活用可能性 >

Laboro.AI BERTモデルは、現在もAI活用が積極的に行われている次のようなシーンでのタスク処理の精度をより高めることが期待されます。


社内に大量に蓄積された文書の整理や分類
専門的なキーワードやそれに類似するワードを含む文書、メールなどテキストデータの分類
チャットボットなど、テキスト情報をベースにしたQ&Aシステムへの応用
スマートスピーカー等、声による入力・出力など、音声技術への応用

また、当社はオーダーメイドによるAI「カスタムAI」の開発を主力事業としており、様々な業界・企業様とのAIプロジェクトで今般の研究開発の成果を活かしてまいります。



< Laboro.AI BERTモデルのご利用について >

Laboro.AI BERTモデルは、国際的な著作権ライセンスであるクリエイティブコモンズのCC BY-NC 4.0(Attribution-NonCommercial 4.0 International)の下で利用いただくことができ、非商用目的に限り無料で公開しております。利用方法およびダウンロードは、弊社Webサイト(https://laboro.ai/column/laboro-bert/)にてご確認いただけます。

商用目的での利用をご希望の方は、当社ホームページのお問い合わせフォーム(https://laboro.ai/contact/other/)よりご連絡ください。



株式会社 Laboro.AIについて

(株)Laboro.AIは、「効く、AIを」をコンセプトに、オーダーメイドのAIソリューション「カスタムAI」の開発・提供を事業とし、アカデミア(学術分野)で研究される先端のAI・機械学習技術のビジネスへの実用化をミッションに掲げています。業界に隔たりなく、様々な企業のコアビジネスの改革を支援しており、その専門性から支持を得る国内有数のAIスペシャリスト集団です。

<会社概要>
社 名:株式会社Laboro.AI(ラボロ エーアイ)
事 業:機械学習を活用したオーダーメイドAI開発、
およびその導入のためのコンサルティング
所在地:〒104-0061 東京都中央区銀座8丁目11-1
GINZA GS BLD.2 3F
代表者:椎橋徹夫(代表取締役CEO)
藤原弘将(代表取締役CTO)
設 立:2016年4月1日
URL : https://laboro.ai/




資料ダウンロード

・別紙(Laboro.AI BERT モデルの精度評価について):https://prtimes.jp/a/?f=d27192-10-pdf-1.pdf
・プレスリリース全文(PDF):https://prtimes.jp/a/?f=d27192-10-pdf-0.pdf

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

1
Apple 2026 MacBook Neo A18 Proチップ搭載13インチノートブック:AIとApple Intelligenceのために設計、Liquid Retinaディスプレイ、8GBユニファイドメモリ、256GB SSDストレージ、1080p FaceTime HDカメラ - シルバー
Apple 2026 MacBook Neo A18 Proチップ搭載13インチノートブック:AIとApple Intelligenceのために設計、Liquid Retinaディスプレイ、8GBユニファイドメモリ、256GB SSDストレージ、1080p FaceTime HDカメラ - シルバー
¥99,800
2
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - スカイブルー
Apple 2026 MacBook Air M5チップ搭載13インチノートブック:AIとApple Intelligence、13.6インチLiquid Retinaディスプレイ、16GBユニファイドメモリ、512GB SSDストレージ、12MPセンターフレームカメラ、日本語キーボード、Touch ID - スカイブルー
¥184,800
3
【整備済み品】富士通 ARROWS Tab V727/V 12.3型 WUXGA+ タブレットPC Windows11 Pro MS Office H&B 2019 第7世代 Core m3-7Y30 メモリ4GB SSD128GB LTE対応 無線LAN Webカメラ タッチペン付属 USB-C HDMI 初期設定済み 中古パソコン
【整備済み品】富士通 ARROWS Tab V727/V 12.3型 WUXGA+ タブレットPC Windows11 Pro MS Office H&B 2019 第7世代 Core m3-7Y30 メモリ4GB SSD128GB LTE対応 無線LAN Webカメラ タッチペン付属 USB-C HDMI 初期設定済み 中古パソコン
¥9,999
4
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
【整備済み品】富士通 ノートパソコン LIFEBOOK U9310 13.3型FHD(1920x1080) 超軽薄 ノートPC/第10世代 Core i5-10310U@1.7GHz/ 8GB メモリ/高速ストレージ SSD/Webカメラ/WIFI/Type-C/HDMI/win11&MS Office 2019 搭載 ビジネス 在宅勤務向け パソコン (メモリ:8GB/SSD:256GB)
¥35,129
5
ESBOOKノートパソコン 【MS Office 2024搭載&Windows 11 Pro】14インチIPS液晶/1920×1080FHDディスプレイ カメラ付き/薄型PCノート高性能CPU/初期設定不要/8Gメモリ/無線LAN/大容量SSD/初心者向け・パソコンノート/日本語キーボードフィルム付き/ワイヤレスマウス付き(256G SSD, ローズゴールド)
ESBOOKノートパソコン 【MS Office 2024搭載&Windows 11 Pro】14インチIPS液晶/1920×1080FHDディスプレイ カメラ付き/薄型PCノート高性能CPU/初期設定不要/8Gメモリ/無線LAN/大容量SSD/初心者向け・パソコンノート/日本語キーボードフィルム付き/ワイヤレスマウス付き(256G SSD, ローズゴールド)
¥36,999

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥2,303
2
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,390
3
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,080
4
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥640
5
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
6
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ブラック T-K6A-2630BK
¥1,690
7
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
¥5,645
8
バッファロー マウス 無線 ワイヤレス 5ボタン 【戻る/進むボタン搭載】 小型 軽量 節電モデル 最大584日使用可能 BlueLED ブラック BSMBW315BK
バッファロー マウス 無線 ワイヤレス 5ボタン 【戻る/進むボタン搭載】 小型 軽量 節電モデル 最大584日使用可能 BlueLED ブラック BSMBW315BK
¥1,040
9
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
¥1,299
10
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
NIMASO ガラスフィルム iPad 第11世代(A16) 2025用/iPad 10.9インチ 第10世代 2022用 衝撃吸収 強化 ガラス 保護フィルム 指紋防止 ガイド枠付き NTB22I574
¥1,358

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン