このページの本文へ

国語研とワークスの産学共同研究成果<第一弾>「複数粒度の分割結果に基づく日本語単語分散表現」モデルを公開

株式会社ワークスアプリケーションズ
2019年03月22日

  • この記事をはてなブックマークに追加
  • 本文印刷

株式会社ワークスアプリケーションズ
国内最大規模の日本語データを複数の単語単位で同時学習―実用的なモデルを構築

株式会社ワークスアプリケーションズ(本社:東京都港区、代表取締役最高経営責任者:牧野正幸、以下 ワークス)のAI研究機関であるワークス徳島人工知能NLP研究所は、大学共同利用機関法人人間文化研究機構国立国語研究所(以下 国語研)と産官の共同研究を実施し、国語研が保持する国内最大規模の日本語データベース「国語研日本語ウェブコーパス(NWJC)」と、ワークス徳島人工知能NLP研究所の形態素解析器「Sudachi」を用いて学習した、実用的な単語分散表現モデルを新たに開発いたしました。このたび、第一弾では「複数粒度の分割結果に基づく日本語単語分散表現」モデルを商用利用可能なオープンデータとして無償公開いたしましたのでお知らせします。






 本単語分散表現モデルを活用することで、コンピュータによる日本語の処理能力を向上させ、企業内に眠る様々なデータの解析、活用を促進します。更には、言語資源として広く公開することで、研究機関や技術者が手軽に高度な言語処理を実現できるようになるため、自然言語処理研究の推進に貢献できると考えます。

 国立国語研究所コーパス開発センターの前川喜久雄センター長は、次のように述べています。
 「国立国語研究所とワークスアプリケーションズとの共同研究により、国語研日本語ウェブコーパスに基づく新しい語彙資源が整備されました。国語研短単位がカバーしていないより長い単位の語を含む分散表現のオープンデータが学術界・産業界で活用され、言語学・言語処理研究の一助となることを大いに期待します。」

 ワークスはマーケットリーダーとして、このような技術還元を通じて、企業のデジタルトランスフォーメーションの実現を支援してまいります。


研究成果

特長
●国内最大258億語規模のコーパスにて学習を実施
●人名や地名、ブランド名、企業名、サービス名等の固有表現の語を大量に増強
●語の内部構造を考慮して類似度や相関度を学習することで高性能化を実現

 既存の日本語単語分散表現では固有表現のような長い単位の収録数が少なく、また語の内部構造を考慮できていない。

 「Sudachi」を用いて複数の粒度で分割したコーパスを同時に学習することで、固有表現の収録数を大幅に拡大。加えて、内部の構造語との類似性を計算することで、単語分散表現モデルの実用性を向上させた。


参考:従来の単語分散表現における学習法および課題

0. 従来の単一的な学習


 語を分割し、語の同時出現率(共起)を機械学習の技術を使って学習する。



 この際、既存の日本語単語分散表現の問題点に、以下の2点が挙げられる。

i. 固有表現や複合語のような長い語が登録されておらず、細分化されてしまい、全体の精度に影響を及ぼす。意味を持つ長い語を認識できることは応用時に有効となる。


ii. 複数の粒度で分割したデータをもとに学習しておらず、長い語の内部にある単語同士の関連性が無視される。





研究内容

1. 複数の単語単位で同時に学習

 「Sudachi」の長・中・短単位の各分割モードで語を複数パターンに分割し、それぞれのパターンにおいて語の同時出現率(共起)を同時に計算して学習する。

 学習データとして各単位の分割を同時に考慮することで、注目する語の周辺に分布する語が各分割単位で共有され類似度が高くなりやすい。


2.比較実験・分析の結果
i. 単語間類似度(jwsan-1400)



          
ii. 文書分類(livedoor-news)




リソースの公開先

 「複数粒度の分割結果に基づく日本語単語分散表現」モデルは、以下のURLにて公開しています。

ワークス徳島人工知能NLP研究所 特設ページ
https://www.worksap.co.jp/nlp-activity/word-vector/



解説

 「単語の分散表現」(単語のベクトル表現ともいう)とは、単語の周辺文脈から単語間の関連性や類似性を機械学習して高次元のベクトルとして表現(数値化)したものです。この単語分散表現モデルは、深層学習等の技術においてコンピュータが日本語を意味解析・意味理解する上で欠かせない自然言語処理技術の基礎技術です。

 日本語の単語分散表現モデルは、「単語の区切り」が明示されないといった特殊性や、学習データの不足等が課題となり、実用化にいたる単語分散表現モデルの研究は英語などの言語に比較して後れをとっていました。

 このたびの国語研とワークス徳島人工知能NLP研究所の共同研究により、国語研が有する国内最大規模の「国語研日本語ウェブコーパス」と、単語を複数の単位で分割可能な「Sudachi」を活用することで、高精度な単語分散表現モデルの構築を行っています。


【株式会社ワークスアプリケーションズについて】

商号:株式会社ワークスアプリケーションズ
設立:1996年7月
代表取締役最高経営責任者:牧野正幸
事業内容:大手企業向け ERP パッケージソフト「HUE」および「COMPANY」の開発・販売・サポート
URL:https://www.worksap.co.jp/


* 会社名、製品名等はそれぞれ各社の商標または登録商標です。
* 本リリースに掲載された内容は発表日現在のものであり、予告なく変更または撤回される場合があります。また、本リリースに掲載された予測や将来の見通し等に関する情報は不確実なものであり、実際に生じる結果と異なる場合がありますので、予めご了承ください。


[i] 「国語研日本語ウェブコーパス」とは、ウェブ上の日本語テキストから100億語を超える規模のサンプルを収集することで稀言語現象の言語学的、心理学的および情報処理的視点からの究明の可能性を開くことを目的に構築されています。
[ii] 形態素解析とは、テキストを語に分割し各種情報を付与する技術です。「Sudachi」は、ワークス徳島人工知能NLP研究所が開発した形態素解析ツールです。
[iii] ライセンス:Copyright (c) 2019 National Institute for Japanese Language and Linguistics, and Works Applications Co., Ltd. All rights reserved.
Apache License, Version 2.0のライセンスの下で国立国語研究所と株式会社ワークスアプリケーションズによって提供されています。
[iv] 「共起」とは、自然言語処理の分野において、任意の文書や文の中に、ある文字列とある文字列が同時に出現することを指します。
[v] スピアマンの順位相関係数による評価. jwsan-1400内のエントリは短単位語からなります。
[vi] 9クラス分類のタスク10分割交差検証の結果、名詞の形態素のみ対象に分散表現の平均和を文書の特徴量とし, ロジスティク回帰による分類をしたものです。

カテゴリートップへ

ASCII倶楽部

注目ニュース

  • 角川アスキー総合研究所

プレミアム実機レビュー

ピックアップ
1
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
KIOXIA(キオクシア) 旧東芝メモリ microSD 128GB UHS-I Class10 (最大読出速度100MB/s) Nintendo Switch動作確認済 国内サポート正規品 メーカー保証5年 KLMEA128G
¥1,980
2
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
Anker PowerLine III Flow USB-C & USB-C ケーブル Anker絡まないケーブル 240W 結束バンド付き USB PD対応 シリコン素材採用 iPhone 17 / 16 / 15 / Galaxy iPad Pro MacBook Pro/Air 各種対応 (1.8m ミッドナイトブラック)
¥1,890
3
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
Anker USB Type C ケーブル PowerLine USB-C & USB-A 3.0 ケーブル iPhone 17 / 16 / 15 /Xperia/Galaxy/LG/iPad Pro/MacBook その他 Android 等 USB-C機器対応 テレワーク リモート 在宅勤務 0.9m ホワイト
¥740
4
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
UGREEN USB Type Cケーブル PD対応 100W/5A 超急速充電 USB C ナイロン編み 断線防止 iphone17/16/15シリーズ/iPad/MacBook Pro/Galaxy S24/Matebook/iPad/Xperia等USB-C各種対応(1m, ブラック)
¥743
5
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
Anker iPhone充電ケーブル PowerLine II ライトニングケーブル MFi認証 超高耐久 iPhone 14 / 14 Pro Max / 14 Plus / 13 / 13 Pro / 12 / 11 / X/XS/XR / 8 Plus 各種対応 (0.9m ホワイト)
¥990
6
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
KIOXIA(キオクシア)【日本製】USBフラッシュメモリ 32GB USB2.0 国内サポート正規品 KLU202A032GL
¥1,100
7
KIOXIA(キオクシア)【日本製】SDカード 128GB SDXC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA128G
KIOXIA(キオクシア)【日本製】SDカード 128GB SDXC UHS-I Class10 読出速度100MB/s 国内正規品 メーカー保証5年 KLNEA128G
¥1,880
8
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ホワイト T-K6A-2630WH
エレコム 電源タップ 6個口 3m 雷ガード 個別スイッチ ほこりシャッター付 耐熱 PSE技術基準適合 ホワイト T-K6A-2630WH
¥1,899
9
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
キヤノン Canon 純正 インクカートリッジ BCI-381(BK/C/M/Y)+380 5色マルチパック BCI-381+380/5MP 長さ:5.3cm 幅:13.9cm 高さ:10.75cm
¥4,918
10
エルパ(ELPA) 扉付タップラン 電源タップ 延長コード 125V 3m 3個口 ホワイト WBT-N3030B(W)
エルパ(ELPA) 扉付タップラン 電源タップ 延長コード 125V 3m 3個口 ホワイト WBT-N3030B(W)
¥652

Amazonのアソシエイトとして、ASCII.jpは適格販売により収入を得ています。

デジタル用語辞典

ASCII.jpメール デジタルMac/iPodマガジン