このページの本文へ

独自の自然言語処理技術を付加したエンタープライズ検索、「特徴語」ベースで類似度やカテゴリを分析

キヤノンITS、類似文書の検索エンジン「DiscoveryBrain」提供開始

2020年08月26日 10時00分更新

文● 大塚昭彦/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 キヤノンITソリューションズ(キヤノンITS)は2020年8月26日、類似文書検索エンジン「DiscoveryBrain」の提供を開始した。同社独自の自然言語処理技術を用いて文書の特徴キーワード(特徴語)を抽出、カテゴリ分類することで、従来のエンタープライズ検索エンジンのようなキーワードに基づく文書検索だけでなく、ユーザーが示した文書に似た文書も容易に検索できる。これにより、大量にある営業提案書、企画書、契約書、設計仕様書、論文などの検索/管理作業を効率化する。

「DiscoveryBrain」のシステム概要。独自の自然言語処理技術と企業向け高速ドキュメント検索システムを組み合わせた

 DiscoveryBrainは、キヤノンITSが独自開発する自然言語処理技術を、Elasticsearchの分散処理検索エンジン「Elasticsearch」と組み合わせて構成されたソフトウェア製品。社内ファイルサーバーやクラウドストレージサービス、文書管理システムなどに保存された文書ファイルやテキストデータを横断的に高速検索できる。

 同製品の大きな特徴が、一般的な全文検索(完全一致検索、曖昧検索)に加えて「類似文書検索」ができる点だ。DiscoveryBrainでは、ファイルサーバーなどに保存された文書/テキストデータをクローリングし、そこから「特徴語」を抽出してインデックス化。これを使って、検索時にユーザーがアップロードした文書の特徴語とのマッチングを行い、特徴語の一致度が高い「類似する文書」の検索を可能にする。

 さらに、顧客企業の業務内容に応じた「特徴語」と「カテゴリ」の対応づけ(グループ化)を行ったユーザー辞書を作成することで、保存された文書を自動的に分類し、入力された検索キーワードと文書内のキーワードが直接マッチしない場合でも、類似文書として検出することができる。文書保存時に、ユーザー個々人がタグ付けをする手間も省ける。

DiscoveryBrainは、文書に含まれる「特徴語」を抽出。さらにユーザー独自辞書によりカテゴリの自動分類も可能だ

 DiscoveryBrainで検索(クローリング)できるファイル/データは、Word、Excel、PowerPoint、PDF、プレーンテキスト。また、標準で対応するシステムはファイルサーバー(SMB)、Salesforce(添付ファイルのみ)、SharePoint Onlineだが、顧客の要望に応じて追加開発もできる。リレーショナルデータベースや他のクラウドストレージ上の文書ファイル、さらにはチャットやメールのテキストデータも検索対象にすることも可能だ。

 また、DiscoveryBrainがパッケージとして提供するのは検索エンジン部分のみであり、ユーザーが検索を実行するユーザーインタフェース部分は顧客ニーズに合わせた個別開発となる。APIを備えているため、一般的なWebインタフェースのほか、他の業務システムやポータルへの組み込み開発、さらにチャットツール向けのボット開発も可能である。

ユーザーインタフェースは顧客ニーズに応じて開発する。Web検索インタフェースだけでなく、API経由での既存システムへの組み込み、チャットボット連携なども可能

 キヤノンITSでは、同製品の対象業務/ユースケースとして、製造業や建設業における設計図やマニュアルなどの検索、研究開発業務での論文検索、類似特許文書の検索、営業業務における提案書や見積書の検索、教材作成時の過去問題検索、医療機関での診療文書検索などを例に挙げている。

ユースケースの例。顧客からの提案依頼書(RFP)を使い、類似する過去の提案資料を検索

 DiscoveryBrainの価格(税抜、年間利用料)は、1ノード(1サーバー)ライセンスが420万円、3ノード(3サーバー)ライセンスが750万円。同社では3ノード以上のクラスタ構成での利用を推奨している。

カテゴリートップへ

  • 角川アスキー総合研究所
  • アスキーカード