レシート印字名に基づきJANコードがない商品をAIで自動分類する技術を開発
東芝データ株式会社
~商品の分類作業を省人化し、レシートデータの分析による商品開発やマーケティング活動の活性化に貢献~
東芝データ株式会社(本社:東京都港区、代表取締役CEO:北川浩昭、以下“東芝データ”)は、このたび、株式会社東芝(本社:東京都港区、社長執行役員 CEO:島田太郎、以下“東芝”)の研究開発センターと共同で、レシートに印字された商品名(以下“レシート印字名”)に基づき、総菜や生鮮食品などJAN(Japanese Article Number)コードが設定されていない商品をAIで自動分類する技術を開発しました。本技術により、レシートデータに基づいた商品の分類作業を省人化することで、商品開発やマーケティング活動の活性化に貢献します。
■開発の背景
近年、さまざまなデータの利活用が進む中、スーパーマーケットやドラックストア、コンビニなどのレシートデータを基に購買動向を分析し、商品の開発やマーケティング活動に生かしたいというニーズが増えています。
総菜や生鮮食品などのように、各店舗内で加工や包装が行われる商品(以下“インストア商品”)は、その店舗でのみ有効な独自の商品バーコード「インストアコード」が設定されており、国内共通の商品バーコード「JANコード」は設定されていません。JANコードが設定されている商品の場合、特定の分類体系に基づいてJANコードと分類名を紐づけた商品情報を入手すれば、レシート印字名を基にその商品を種類別に分類することが容易です。しかし、インストアコードに紐づいた商品情報は各店舗で管理されているため入手することが難しく、レシート印字名を基にインストア商品を分類する場合、レシート印字名を一つ一つ目視で確認しながら手作業で分類していく必要があり、分類作業に時間と労力を要します。そのため、インストア商品はレシートデータの利活用を妨げる要因となっています。
■本技術の特長
東芝データでは、実際の購買ビッグデータに基づく価値ある市場分析を提供するために、クラスタリングや自然言語処理など最新のAI技術を活用する「レシート・インフォマティクス技術」の研究開発を推進しています。
東芝データと東芝研究開発センターは、レシート印字名に基づきインストア商品を自動で分類するために、2種類のAI「LightGMAIC(TM)(Light Graph-based Multi-Angled Item Categorization)グラフニューラルネットワークモデル」と「レシート分類学習済み大規模言語モデル」を組み合わせた自動分類技術を開発しました。
1. LightGMAIC(TM)グラフニューラルネットワークモデル
レシート印字名分析向けに新たに開発したAIです。レシート印字名とその部分文字列との対応関係と、レシート印字名と分類名の紐づけを表現したグラフ構造を作成し、そのグラフ構造を訓練データとしてグラフニューラルネットワークに学習させます。新規のレシート印字名を入力すると、それに含まれる部分文字列との関係性から適切な分類名を判定します。部分文字列は、東芝データが保有する過去の分類データから、分類名の判定に対する貢献度が高いものを抽出し、レシート印字名と部分文字列の対応には優先度情報を持たせます。
図1の学習例において、レシート印字名が「えびとアボカドのサラダ」の場合、グラフ構造で「えび」・「アボカド」・「サラダ」の3つの部分文字列を対応付け、さらにレシート印字名内での位置を考慮して「サラダ」との対応関係に最も大きな優先度を持たせます。これを学習したグラフニューラルネットワークは、入力された新規のレシート印字名が「えび」・「アボカド」・「サラダ」の3つの部分文字列を持ち、かつ「サラダ」の優先度が高い場合、その分類名は「サラダ(アボカド)」と判定します。実際のレシートではレシート印字名特有の省略した表現が多いため、それらも考慮して部分文字列を選定して学習させます。
2. レシート分類学習済み大規模言語モデル
レシート印字名分類向けに大規模言語モデルを学習させた独自のAIです。レシート印字名に対して正しい分類名と間違いやすい分類名の組を作成し、その組を訓練データとして大規模言語モデルに学習させます。新規のレシート印字名を入力すると、そのレシート印字名に対し正しい分類を照らし合わせて適切な分類名を判定します。訓練データは、東芝データが保有する過去の分類データを解析し抽出することで、分類名の判定精度を高めました。
図1の学習例において、レシート印字名が「えびとアボカドのサラダ」の場合、正しい分類名は「サラダ(アボカド)」で間違いやすい分類名は「海老マヨ」と学習した大規模言語モデルは、入力された新規のレシート印字名が「えびとアボカドのサラダ」の場合または同等と判断した場合、その分類名は「サラダ(アボカド)」と判定します。
1種類のAIの判定結果で分類名を決定せず、2種類のAIによる判定結果を組み合わせて、機械学習を用いて最終的な分類名を決定することで、分類精度を向上できました。最終的な分類結果を人が目視で確認する必要がある場合でも、2つのAIが異なる推論結果を出しているケースを優先して確認することで、作業効率を高めることができます。
図1:2つのAIを組み合わせた商品名の自動分類技術の概要
東芝グループの電子レシートサービス「スマートレシート(R)」から得られるレシートデータを用いて、本技術の分類精度を検証したところ、インストア商品に手作業で分類名を付与した場合と比較し、本技術を用いる場合は87%以上の正解率で分類することができました。
■今後の展望
東芝データは、本技術の分類精度の向上や、手作業で分類する場合と比較した際のコスト精査を進め、2025年度中に本技術を用いたインストア商品の購買統計データの提供開始を目指します。また、分類対象をインストア商品だけでなく飲食店のメニューに拡大するなど、本技術のさらなる研究開発を進めてまいります。
東芝データはレシート・インフォマティクス技術を用いて、レシートデータのさまざまな分析ニーズに貢献します。
■電子レシートサービス「スマートレシート(R)」の概要
東芝テック株式会社が開発、運営し、東芝データ株式会社が運営を支援している電子レシートサービス「スマートレシート(R)」は、会計時に通常は紙で提供される購入商品の明細レシートを電子化し、電子レシートセンターでデータとして管理、提供するサービスです。お客様の手元に紙のレシートを残さなくてもスマートフォンで購入履歴をいつでも確認することができ、お客様の買い物における利便性の向上につながるとともに、加盟店の紙レシートの発行コストや環境負荷を減らすことができます。
公式サイト:https://www.smartreceipt.jp/
法人向けサイト:https://www.toshibatec.co.jp/products/pos/smartreceipt/
※「スマートレシート(R)」は東芝テック株式会社の登録商標です。