独自の自然言語処理技術を付加したエンタープライズ検索、「特徴語」ベースで類似度やカテゴリを分析
キヤノンITS、類似文書の検索エンジン「DiscoveryBrain」提供開始
2020年08月26日 10時00分更新
キヤノンITソリューションズ(キヤノンITS)は2020年8月26日、類似文書検索エンジン「DiscoveryBrain」の提供を開始した。同社独自の自然言語処理技術を用いて文書の特徴キーワード(特徴語)を抽出、カテゴリ分類することで、従来のエンタープライズ検索エンジンのようなキーワードに基づく文書検索だけでなく、ユーザーが示した文書に似た文書も容易に検索できる。これにより、大量にある営業提案書、企画書、契約書、設計仕様書、論文などの検索/管理作業を効率化する。
DiscoveryBrainは、キヤノンITSが独自開発する自然言語処理技術を、Elasticsearchの分散処理検索エンジン「Elasticsearch」と組み合わせて構成されたソフトウェア製品。社内ファイルサーバーやクラウドストレージサービス、文書管理システムなどに保存された文書ファイルやテキストデータを横断的に高速検索できる。
同製品の大きな特徴が、一般的な全文検索(完全一致検索、曖昧検索)に加えて「類似文書検索」ができる点だ。DiscoveryBrainでは、ファイルサーバーなどに保存された文書/テキストデータをクローリングし、そこから「特徴語」を抽出してインデックス化。これを使って、検索時にユーザーがアップロードした文書の特徴語とのマッチングを行い、特徴語の一致度が高い「類似する文書」の検索を可能にする。
さらに、顧客企業の業務内容に応じた「特徴語」と「カテゴリ」の対応づけ(グループ化)を行ったユーザー辞書を作成することで、保存された文書を自動的に分類し、入力された検索キーワードと文書内のキーワードが直接マッチしない場合でも、類似文書として検出することができる。文書保存時に、ユーザー個々人がタグ付けをする手間も省ける。
DiscoveryBrainで検索(クローリング)できるファイル/データは、Word、Excel、PowerPoint、PDF、プレーンテキスト。また、標準で対応するシステムはファイルサーバー(SMB)、Salesforce(添付ファイルのみ)、SharePoint Onlineだが、顧客の要望に応じて追加開発もできる。リレーショナルデータベースや他のクラウドストレージ上の文書ファイル、さらにはチャットやメールのテキストデータも検索対象にすることも可能だ。
また、DiscoveryBrainがパッケージとして提供するのは検索エンジン部分のみであり、ユーザーが検索を実行するユーザーインタフェース部分は顧客ニーズに合わせた個別開発となる。APIを備えているため、一般的なWebインタフェースのほか、他の業務システムやポータルへの組み込み開発、さらにチャットツール向けのボット開発も可能である。
キヤノンITSでは、同製品の対象業務/ユースケースとして、製造業や建設業における設計図やマニュアルなどの検索、研究開発業務での論文検索、類似特許文書の検索、営業業務における提案書や見積書の検索、教材作成時の過去問題検索、医療機関での診療文書検索などを例に挙げている。
DiscoveryBrainの価格(税抜、年間利用料)は、1ノード(1サーバー)ライセンスが420万円、3ノード(3サーバー)ライセンスが750万円。同社では3ノード以上のクラスタ構成での利用を推奨している。
