BERT、GPT、デジタルヒューマン――「AWS Summit Tokyo」事例セッションで披露
「生成AIの業務インパクトは極めて大きい」リコーが開発の取り組みを紹介
2023年04月20日 13時40分更新
2023年4月20日の「AWS Summit Tokyo」事例セッションにおいて、リコーは生成AI(ジェネレーティブAI)を活用した製品/サービス提供による顧客価値創造への取り組みについて説明した。
AIによる顧客の声分析をサービス化
セッションに登壇したのは、リコー デジタル戦略部 デジタル技術開発センタ長の梅津良昭氏だ。デジタル技術開発センタの役割について梅津氏は、リコーがOAメーカーからデジタルサービスの会社への転換を図るなかで、映像系AI、音声系AI、自然言語処理AIなど多様なAIが必要となっており、そうしたAIの研究開発を各事業部門と一体化して進めていくことだと説明する。
「AI開発には1990年代から取り組んできたが、2015年以降は特に深層学習系AIの開発に取り組んでいる。さらに2020年からはBERT世代のAIを活用。自然言語処理AIによる企業内のテキストデータ活用ソリューションとして『仕事のAI』を発表した」(梅津氏)
「仕事のAI」は、コールセンターなどにおいて、顧客の声の意味をAIが分析して仕訳を行うものだ。これにより、人手による解析時間の削減を実現し「業務の効率化や顧客満足度向上といった価値を創出することができた」(梅津氏)。
2021年からはこの「仕事のAI」をサービス事業化している。リコーのクラウド基盤「RICOH Smart Integration(RSI)」上でBERT世代の自然言語処理AIを提供し、上で、自然言語処理AIを提供。顧客システムやリコーの既存製品と連携させることで、AIによる業務活用を提案してきた。
「AIモデルの構築においては『Amazon SageMaker Serverless Inference』を活用することで、低ランニングコストと高可用性を実現できた。これをきっかけに、大規模自然言語処理AIを活用したビジネスに参入。AWSの最新機能を活用することで、AI機能を簡単かつリーズナブルに、お客様に提供できる環境が整った」(梅津氏)
だが、その一方で課題も生まれたという。
「大規模自然言語処理AIがビジネスにどの程度貢献するのか、どれくらいの性能が発揮できるのかがわからないため、検証を行いたいという声が多かった。しかし、検証をするとなると、顧客は自社のデータを外部に出さなくてはならず、その手続きに時間がかかってなかなか先に進まないという課題も生まれた。PoCに3カ月も6カ月もかかるので、AIモデルをより迅速に導入して成果につなげるには、この部分を解決する必要があった」
こうした課題を解決するために、リコーではAI開発プラットフォームの準備に取り組んでいるという。これは、データ分析からAIモデルの開発や運用までを行える環境をクラウド上に用意し、顧客データをリコーに渡すことなく、顧客自身でクラスタリングツールを使って分析、アノテーションを作り、そのデータを教師データとして顧客固有のカスタムモデルを構築するプラットフォームだ。
ログインして分類器を登録し、分類に即したデータをCSV形式で準備。簡易パラメータ設定をもとに、約1000件のデータを使って学習を開始する。1モデルあたり10~30分で開発できるという。開発したAIモデルが十分な分類精度を持っていると判断したら、APIを通じて顧客システムから呼び出して、すぐに利用することができる。
「パラメータ調整についても面倒な操作は不要であり、簡単に使ってもらえる。性能が出ない場合には、分類を自ら分析できるツールも用意している。視覚的に確認することができるため、それにあわせて必要な場所に分類器を作って、データを仕訳するといった対策ができる」(梅津氏)
このAI開発プラットフォームは2022年12月から先行ユーザーで導入を開始しており、2022年度第2四半期には製品化する予定だとしている。
「GPT-3の業務インパクトは極めて大きいと判断」モデル開発に取り組む
リコーではGPT-3についても早い段階から着目していたという。梅津氏は、BERT世代のAIは教師データが必要であることがネックになると考え、AIのリサーチを行っていたところ、2020年にGPT-3に出会ったと語る。
「たとえば、リコーの複合機でスキャンした請求書や見積書から店名や金額を抽出したり、見積書を出したかどうかを確認したりといった作業が簡単にできる。またSQL文やグラフの生成も、要件をスクリプトで書くだけで行えるため、BIやRPAの世界にも変化を及ぼす技術であると考えた。さらにプロンプトプログラミングにより、人間と会話しているようなチャットボットが簡単に出来上がることもわかった。GPT-3が業務分野に入ってきたときのインパクトは極めて大きいと判断した」(梅津氏)
デジタル技術開発センタでは2022年度にGPT-3の研究予算を獲得し、GPT-3によるAIモデルの開発に着手した。GPT-3世代のAIを活用することで、これまで以上に高機能なサービスの提供を目指しているという。
「さらに、AIを熟知していない人でも、AI機能を業種や業務に適用できるようにデジタルヒューマンの開発も行った。デジタルヒューマンでは、音声認識と音声発話、AIモデル、CGを組み合わせたAIアシスタントの実現を目指している」(梅津氏)
GPT-3世代のAIモデルの開発は、AWSジャパンとの連携で推進してきた。
当初はGPUマシンの独自調達を目指し、そのための予算も確保していたが、世界的な部品不足の影響もあって確保に苦戦。そこでAWSジャパンの支援プログラムを活用し、GPUインスタンスの上限緩和申請を行って大量のGPUが利用できる環境を整備。「Amazon SageMaker」による分散学習環境の構築や、「Amazon Machine Learning Solutions Lab」による開発支援などにより、3カ月間でGPT-3世代のAIモデルの開発を完了した。高速で良質な文生成が可能で、ベースモデルや他社AIモデルと比べても日本語に強いモデルが構築できたという。
「GPUが高速すぎてデータ転送が追いつかない状況が生まれたため、『Amazon FSx for Lustre』に関連づけてデータを転送し、学習がうまく回るようにするなど工夫した部分も多かった。インフラ環境の設定に失敗すると、空のままで学習したり、学習データが飛ぶということもあり、1日で数百万円のコストが消えてしまうこともあった。こうしたノウハウも獲得できた」「日本の企業に向けて、企業のデータ由来のGPT-3を業務に使うことができるモデルが完成した」(梅津氏)
あらゆる業種/業務において“デジタルバディ”が当たり前になる時代
もうひとつの取り組みである「デジタルヒューマン」は、“アルフレッド”という名前がついたキャラクターが、音声認識、音声合成、自然言語処理、画像生成の技術を活用して接客を行う。顧客と音声で会話をしながら、課題に最適な商材を紹介するようなサービスが実現する。
リアル空間に設置されたインタラクティブサイネージへの投影、あるいはメタバース空間にAIアバターとして参加させるかたちで、24時間365日、さまざまな言語で自動接客ができるという。
「AIに関してはGPT-3を活用したほか、ゲーム由来の技術であるPixel Streamingによってデバイスフリーの表示を実現した。AWSのプロトタイピングサービスを活用することで、短期間で開発を進めることができた」(梅津氏)
梅津氏は、今後はあらゆる業種/業務において「デジタルバディ(デジタルの支援者)」を持つことが当たり前の時代になると語る。そのために、リコーではRLHF(人間のフィードバックによる強化学習)などの技術開発、プロンプトエンジニアリングの開発リソース拡大などによる高度なAIの開発を促進し、AI時代に即した開発/運用環境のクラウド提供などにも取り組むとした。
「GPT-3世代のAIを顧客に提供するには学習環境が重たいという課題もある。そこではAWSの深層学習専用の高性能チップである『AWS Trainium』や『AWS Inferentia』の適用を検討している。AWS Inferentia搭載のInf2インスタンスが登場することで、ChatGPTと同等の性能が発揮できる環境が整うと期待している。また、Trn1インスタンスによる学習コストの削減、時間短縮が可能になる。このコストダウンによるインパクトにも、大きく期待しているところだ」(梅津氏)
* * *
まとめとして梅津氏は、ChatGPTなどの利用体験を通じてAIに興味を持ち、AIをビジネス活用したいという顧客が増えていると述べた。リコーはそうした企業がさまざまなAIを活用し、DX推進に貢献できるよう、今後も商品開発を進めていくと語った。
今回のリコーの取り組みについて、アマゾンウェブサービスジャパン 技術統括本部技術推進グループの小林正人本部長は、「リコーに対して行った支援のように、AWSジャパンでは企業が最新のAI技術を活用できるように、高速化したり、コストパフォーマンスを高めたりするCPUを活用したサービスを提供している。また、SageMakerの分散学習をはじめとしてAIの開発を快適に行えるようなサービスを提供している」と述べた。