ELYZA、日本語における高精度の生成型要約モデルを開発。“ELYZA DIGEST”として一般公開へ

2021.08.26 10:00

PR TIMES

株式会社ELYZA
NLP技術を用いてホワイトカラーのDX推進を目指す

東京大学松尾研発・AIスタートアップ、株式会社ELYZA（イライザ、本社：東京都文京区、代表取締役　曽根岡侑也）は、日本語における生成型要約モデルの開発に成功しました。また本日より、当モデルを用いた要約AI “ELYZA DIGEST”（イライザ　ダイジェスト）をデモサイトとして一般公開いたします。

▮当ニュースのサマリー

東大松尾研発のスタートアップELYZAが文章要約AI “ELYZA DIGEST” を公開した。
日本語での大規模言語モデルを活用した結果、高精度な生成型の要約モデルを実装した。
社内検証では、人間に匹敵する正確な内容の要約文を出力できるという結果に。
社会実装の第一歩として、カスタマーセンターの対話要約の作成業務を対象に、東証一部上場企業（SOMPOホールディングス株式会社）のグループ会社（損害保険ジャパン株式会社）で採用された。（ニュースリンク：https://prtimes.jp/main/html/rd/p/000000009.000047565.html）

※当リリース内にAIが実際に要約した結果のサンプルを掲載しております。

▮概要

要約AI “ELYZA DIGEST” とは何か。

　“ELYZA DIGEST” は入力したテキストデータを３行に要約するAIです。「生成型」の要約モデルであり、読み込んだテキストを元にAIが一から要約文を生成します。書籍・小説・ニュース記事のような誤字脱字の少ない綺麗な文章だけでなく、議事録・対話テキストのような乱雑な文章・文字列であっても対応可能です。テキストの直接入力以外にもURLを張り付けることで該当ページ内の全テキストから要約文を作成できます。

　当AIモデルは、NLP（自然言語処理）の最先端技術を活用し開発され、2021年7月1日より東証一部上場企業であるSOMPOホールディングス株式会社と開始した実証実験でも利用されています。

下記URLより、登録不要でご利用いただけます。
https://www.digest.elyza.ai/

▮どのような「未踏」への挑戦なのか

医療・弁護士・メディア・コールセンターなど高度に言葉を扱うホワイトカラーとAIのさらなる共存

　この度公開した “ELYZA DIGEST” で用いられている要約AIを改善していくことで、言葉を扱うホワイトカラーの方々の生産性を向上させていきたいと考えております。
　具体的には、医療におけるカルテ入力、弁護士業務における契約書類や判例の読解、コールセンターにおけるオペレーターの対話メモ作成、メディアにおける記事の原稿作成、あらゆるホワイトカラー業務で発生する議事録づくりなど多数のユースケースでの活用を想定しております。

実用化まで一歩届いていなかった言葉を扱うAI、近年のブレイクスルーにより実用化へ

　音声認識や画像認識分野における技術の発展により、対話の音声データや紙のスキャン画像を「テキストデータに変換できる」段階までAI活用が進んでいます。一方、そのテキストデータを「言葉として理解し活用するための技術」（NLP）が「人間に遠く及ばない」精度にとどまっていたため、ホワイトカラー業務を代替/サポートする上では不十分なことが多く実用化が一部の領域に限定されていました。実用化が進んでいなかった事例として、コールセンター業務におけるAI活用があります。顧客とコールセンターのオペレーター間の対話において、音声認識AIによって文字起こしを行うことで、認識ミスはあるものの、対話音声をテキストデータに変換することができています。一方で、それらのテキストデータに対する要約や集計などの作業は、AIの精度が足りず、依然として人が行わなければならない作業となっています。

　そのような中、2018年秋にNLP分野でブレイクスルーが起き、Googleより大規模言語モデル「BERT」が発表され、2019年には「人間を超える」精度が達成されました。そのため、英語圏ではNLPの最先端技術を実用化したサービスや事例が誕生しています。
　一方、日本語では言語特性に依存する技術的な難易度の高さや公開されているデータ量が少ないという問題から、NLPの最先端技術の実用化が遅れていました。ELYZAは、この状況に問題意識を持ち、2020年にBERT以降の大規模言語モデルと弊社独自の大規模データセットを活用した日本語特化AIエンジン「ELYZA Brain」を開発しました。その後、「ELYZA Brain」の改良を行いつつ、日常・ビジネスの場でよく発生する「要約」という問題設定に特化し、この度、要約AI “ELYZA DIGEST” を公開するに至りました。

煩雑で難易度が高い「対話テキストの要約」に挑戦

　“ELYZA DIGEST” は、大規模言語モデルを用いて高精度な生成型要約モデルを作る試みとなります。結果として、AIによる要約でよく扱われるニュース記事などに対して、 “ELYZA DIGEST” により、従来より高精度に要約文を生成することが可能になりました。
　ELYZAでは、さらなるチャレンジとして、「対話テキストの要約」の実用化に挑戦しております。ニュース記事と比較し、対話テキストの要約は主に下記の４つの要因から難易度が高いとされています。
1. 口語のため、文の構造が大きく崩れていることが多い
2. 音声認識の失敗による誤字脱字の存在
3. 話者が複数存在
4. 対話トピックが多様

　AIを用いた要約には従来から複数のアプローチがありますが、対話テキストの要約において、文中から一部を抜き出す「抽出型」や「圧縮型」、もともと用意したテンプレートの一部を置き換える「テンプレート型」では、上記の要因が障壁となり精度の高い要約は難しくなっています。一方、“ELYZA DIGEST” で採用している「生成型」のアプローチでは、一から柔軟に要約文を生成できるため、これらの課題を解決できる可能性があります。
　実際に “ELYZA DIGEST” を用いて対話テキストを要約した例が下図になります。この例を見ると、口語特有の「あのー」、「えーと」などの間投詞や、音声認識のミスがあっても、妥当な要約文を生成できていることがわかります。
　「対話テキストの要約」を実用化するための第一歩として、SOMPOホールディングス株式会社と提携し、グループ会社の損害保険ジャパン株式会社のカスタマーセンターにおけるる対話要約の作成業務の支援に取り組んでまいります。

▮技術に関する詳細

社内検証では、人間に匹敵する正確な内容の要約文を出力できるという結果に

　“ELYZA DIGEST”による要約の精度評価を行うために、以下の観点で人間が作成した要約文との比較検証を行いました。
１. 正確性

原文に対して不正確な記述がないか

２. 流暢性

文法やスペル、構造のミスがないか
主語の省略を正しく補完できているか
過剰な繰り返し表現がないか

表1. ニュース記事について、“ELYZA DIGEST” と人間の要約文を比較した結果。数値は対象のニュース記事のうち、各評価項目に対して問題ない要約文を作成できた割合 (%) を表す。
　上の表が検証結果となります。「正確性」の観点では、“ELYZA DIGEST” は全体の90%の記事に対して問題ない出力ができており、人間に匹敵する精度で要約文を生成できている、という結果となりました。生成型要約では、一から文章を生成することで柔軟な出力ができることが強みですが、その反面、原文にない事実や原文と反する事実を生成してしまう可能性が高い、という懸念点があります。「正確性」の検証によって、“ELYZA DIGEST” はこの生成型要約の懸念点に対してある程度強いことが示されました。
　一方、「流暢性」の観点では、人間の要約と比べると何らかのミスがある出力をする割合が多い結果となりました。その内訳としては、いわゆる文法のミスに加え、日本語によくある原文での主語の省略に対して、要約文で適切な主語を補完できていないことにより、文が少し読みにくくなっているような箇所が見受けられました。これらの点については、より人間が読みやすい要約文を生成できるよう、改善に取り組んでまいります。

　また、要約の効率性については、今回の検証で用いた記事は平均900字程度でしたが、 “ELYZA DIGEST”では1記事あたり10秒以下で要約できる一方、人間の場合は5分程度の時間を要しました。このことから、精度が十分であれば、要約AIを活用することで大幅な業務の効率化が期待できます。
表2. 要約の所要時間の比較。

“ELYZA DIGEST” はAIが一から要約文を作成する「生成型」

　”ELYZA DIGEST" では、ELYZAが独自に開発した日本語特化の大規模言語モデルを使用し、国内での成功例が少ない「生成型要約」という「文章を入力として、AIが一から要約文を生成する」アプローチを採用していいます。
　AIによる要約は生成型、抽出型、圧縮型、テンプレート型と大きく４種類のアプローチがあります。
それぞれの特徴は下記画像をご参照ください。

なぜ高精度の生成型要約モデルを作れたのか。

　今回の取り組みでは、日本語の大規模言語モデルを活用することで、高精度な生成型要約モデルを開発しました。当AIモデルの構築には、最先端の自然言語処理技術の知見に加え、大量の日本語テキストを集め学習させることが必要ですが、この要件を満たす企業は国内に多くありません。
　東京大学・松尾研究室に出自を持ち、最先端技術の社会実装を目指す弊社では、BERTが登場した2018年以降大規模言語モデルの研究開発を進めており、2020年にはBERT以後の大規模言語モデルと弊社独自の大規模データセットを活用した日本語特化AIエンジン「ELYZA Brain」を開発しました。その後も、「ELYZA Brain」の改良だけでなく、タスクに特化した改善を継続的に実施しており、その成果の1つとして今回の “ELYZA DIGEST” の公開に至りました。

▮展望

　要約は人間にとっても簡単なタスクではないです。この難しいタスクに対して、AIが人間以上の精度を実現することで、情報処理の効率は飛躍的に上昇する可能性があります。
　その第一歩として、東証一部上場企業（SOMPOホールディングス株式会社）のグループ会社（損害保険ジャパン株式会社）と提携し、カスタマーセンターにおける要約作成業務を対象に、音声認識後の対話テキストから要約するAIの開発に取り組んでおります。

　また、社内の研究開発において、モデルのさらなる高精度化に取り組んでまいります。同時に、様々なユースケースに対して迅速にNLP技術の実用化を進め、社会へ与えるインパクトを大きくしてまいります。

▮株式会社ELYZAとは

　当社は、AI領域に強みを持つ東京大学・松尾研究室出身のメンバーで創立された会社です。私たちは「未踏の領域であたりまえを創る」をミッションに掲げ、技術領域では自然言語処理・マルチモーダルに、市場領域ではリテールテック、リーガルテックに焦点を当てて研究開発に取り組んでいます。

　当社の強みはその技術力です。東京大学松尾研究室出身の代表をはじめとし、経済産業省主催「未踏事業」出身エンジニア、東京大学在籍のAIエンジニア、メガベンチャーのテックリード等、最新のテクノロジーを扱える技術力の高いメンバーが結集しています。
　NLP（自然言語処理技術）のブレイクスルーにより将来実現し得る未来のユースケース「NLP30」を策定し、様々な分野で未踏の領域を現実するための活動をしています。

＜株式会社ELYZAに関するニュース＞

ＳＯＭＰＯホールディングスとＡＩスタートアップのELYZA、コールセンター領域におけるＤＸパートナーとして提携。損保ジャパンのカスタマーセンターで実証実験を実施
https://prtimes.jp/main/html/rd/p/000000009.000047565.html

東京大学大学院教授松尾豊氏、株式会社ELYZAの技術顧問に就任
https://prtimes.jp/main/html/rd/p/000000006.000047565.html

株式会社ELYZA、人間を超える国内最大の日本語AIエンジン「ELYZA Brain」を開発
https://prtimes.jp/main/html/rd/p/000000007.000047565.html

EY、イノベーションを推進するスタートアップ企業15社を表彰。EYInnovativeStartup2021
https://www.ey.com/ja_jp/news/2021/03/ey-japan-news-release-2021-03-17

アシックス・アクセラレーター・プログラムで最優秀賞を受賞し、アシックスと実証実験を開始
https://prtimes.jp/main/html/rd/p/000000001.000047565.html

＜会社概要＞

株式会社ELYZAは、「未踏の領域で、あたりまえを創る」という理念のもと、自然言語処理、リテールテックの技術に焦点を当てて研究開発を行なっております。AI導入の検討段階における要件定義などのコンサルティングから、モデルの開発・検証、システムへの導入や運用支援まで、一貫したソリューションを提供いたします。

社名　　：株式会社ELYZA
所在地　：〒113-0033 東京都文京区本郷2-27-2 エポック本郷8F
代表者　：代表取締役　曽根岡侑也
設立　　：2018年9月
URL　　：https://elyza.ai/

報道関係者からの本リリースに関するお問い合わせ先
株式会社ELYZA 広報問い合わせ窓口
Mail：pr@elyza.ai