Sansanのデータ統括部門「DSOC」独自のOCRエンジン「DSOC OCR」を開発
Sansan株式会社
メールアドレスを99.7%以上の精度でデータ化
Sansan株式会社は、同社のデータ統括部門DSOC(Data Strategy & Operation Center)が、名刺の取り込みに特化した独自のOCR(光学文字認識)エンジン「DSOC OCR」を新たに開発したことを発表します。 DSOC OCRは、現在、「Eメールアドレス」と「氏名」に対応しており、Eメールアドレスに関しては、99.7%の精度でデータ化することが可能です。なお、DSOC OCRは、名刺全体にそのデータ化範囲を広げるように、順次開発を進めていきます。
■DSOC OCR開発の背景
OCRは、画像中の文字列を検出・認識し、文字コードとして出力する技術です。当社が提供するクラウド名刺管理サービスにおいては、名刺をスキャナやスマートフォンで読み取り、データ化する過程でOCRを使用しています。
名刺は、ビジネスシーンで日常的にかわされる媒体です。氏名やEメールアドレスなどを正しく、ビジネスで活用するという目的上、限りなく100%に近い精度でデータ化しなくてはいけませんが、現在の技術では、OCRエンジン単体で、その精度は担保ができません。Sansanでは、データ化精度を担保するために、OCRと手入力を組み合わせたデータ化フローを構築し、ユーザー企業にサービスを提供してきました。また、名刺スキャン後、すぐに名刺データを活用したいユーザーには、これまでOCRのみを用いた一次納品を実施ししていました。
OCRのさらなる精度向上により、ユーザーが即時に使える一次納品のデータ化精度が上がるだけではなく、ユーザーが99.9%の精度のデータを二次納品で受け取れるまでの時間も短縮することができます。また、当社が展開するSmart Entryやイベントテック事業においても活用できると考え、DSOCでは名刺の読み取りに特化した独自のOCRエンジンの開発に注力してきました。
■DSOC OCRとは
DSOC OCRは、名刺に特化した当社独自のOCRエンジンです。DSOCに所属するKaggle (※1)グランドマスターを中心に開発されました。これまでのDSOCのデータ化ノウハウをOCRエンジンに展開することにより、現段階では、Eメールアドレスと氏名のデータ化に対応し、Eメールアドレスのデータ化精度においては99.7%を実現しました。
DSOC OCRの特徴は次のとおりです。
・どんな状態のデータでも、高い精度でデータ化。Eメールアドレスは99.7%の精度
OCRは、その撮影された画像により、精度にばらつきが出ます。DSOC OCRは、Sansanのデータ統括部門が名刺のデータ化に用いたノウハウを用いることにより、定型・不定形や撮影された環境を問わず、全てのデータにおいて、99.7%の精度で、Eメールアドレスのデータ化を実現します。
・高速処理を実現したハイパフォーマンス
OCRではデータ化した後に、即使用するシーンでの活用が求められるため、正確さだけではなく、スピードも求められます。DSOC OCRでは、0.3秒の即時デジタル化に対応した、超ハイパフォーマンスを実現しました。これにより、サービス内に実装された際に、ユーザー体験を損ないません。
DSOCは、今後DSOC OCRをさらに高い精度のOCRにするため、開発を加速してまいります。具体的には、「社名」「役職」「住所」「電話番号」といった、名刺全項目に対応できるように、開発を進めます。
今後もSansanは、「出会いからイノベーションを生み出す」という当社のミッション実現へ向けて、進化を続けてまいります。
※1:Kaggleとは、世界最大の機械学習コンペティションのプラットフォームです。
(以上)
■DSOCについて
DSOCは、Sansan株式会社のデータ統括部門です。データドリブンによって企業の事業成長をリードすることを目的として、「データ化」「データ活用」という2つの役割を担っています。独自開発のAIを活用したデータ化技術により膨大な「出会い」を正確にデータベース化し、それを分析・活用することで、企業の情報、人物の情報、人と人のつながりの情報など、ビジネスシーンで活用できる「価値ある情報」を生み出します。そして、その成果はサービスを通じて新しい価値として提供しています。多様なバックグラウンドや専門領域を持つ研究者やデータサイエンティストなどのR&Dメンバーを擁するDSOCは、サービスを支えるとともに企業の事業成長を牽引します。
https://sansan-dsoc.com
■Sansan株式会社 会社概要
「出会いからイノベーションを生み出す」をミッションとして掲げ、法人向けクラウド名刺管理サービス「Sansan」および個人向け名刺アプリ「Eight」を開発・提供しています。名刺管理を起点としたビジネスプラットフォームとして活用できるサービスを国内外で提供しています。
設立:2007年6月11日
URL: https://jp.corp-sansan.com
所在地:150-0001 東京都渋谷区神宮前5-52-2 青山オーバルビル13F
資本金:62億36百万円(2020年5月31日時点)
事業内容:クラウド名刺管理サービスの企画・開発・販売
法人向け「Sansan」 https://jp.sansan.com 個人向け「Eight」 https://8card.net