このページの本文へ

独自の自然言語処理技術を付加したエンタープライズ検索、「特徴語」ベースで類似度やカテゴリを分析

キヤノンITS、類似文書の検索エンジン「DiscoveryBrain」提供開始

2020年08月26日 10時00分更新

文● 大塚昭彦/TECH.ASCII.jp

  • この記事をはてなブックマークに追加
  • 本文印刷

 キヤノンITソリューションズ(キヤノンITS)は2020年8月26日、類似文書検索エンジン「DiscoveryBrain」の提供を開始した。同社独自の自然言語処理技術を用いて文書の特徴キーワード(特徴語)を抽出、カテゴリ分類することで、従来のエンタープライズ検索エンジンのようなキーワードに基づく文書検索だけでなく、ユーザーが示した文書に似た文書も容易に検索できる。これにより、大量にある営業提案書、企画書、契約書、設計仕様書、論文などの検索/管理作業を効率化する。

「DiscoveryBrain」のシステム概要。独自の自然言語処理技術と企業向け高速ドキュメント検索システムを組み合わせた

 DiscoveryBrainは、キヤノンITSが独自開発する自然言語処理技術を、Elasticsearchの分散処理検索エンジン「Elasticsearch」と組み合わせて構成されたソフトウェア製品。社内ファイルサーバーやクラウドストレージサービス、文書管理システムなどに保存された文書ファイルやテキストデータを横断的に高速検索できる。

 同製品の大きな特徴が、一般的な全文検索(完全一致検索、曖昧検索)に加えて「類似文書検索」ができる点だ。DiscoveryBrainでは、ファイルサーバーなどに保存された文書/テキストデータをクローリングし、そこから「特徴語」を抽出してインデックス化。これを使って、検索時にユーザーがアップロードした文書の特徴語とのマッチングを行い、特徴語の一致度が高い「類似する文書」の検索を可能にする。

 さらに、顧客企業の業務内容に応じた「特徴語」と「カテゴリ」の対応づけ(グループ化)を行ったユーザー辞書を作成することで、保存された文書を自動的に分類し、入力された検索キーワードと文書内のキーワードが直接マッチしない場合でも、類似文書として検出することができる。文書保存時に、ユーザー個々人がタグ付けをする手間も省ける。

DiscoveryBrainは、文書に含まれる「特徴語」を抽出。さらにユーザー独自辞書によりカテゴリの自動分類も可能だ

 DiscoveryBrainで検索(クローリング)できるファイル/データは、Word、Excel、PowerPoint、PDF、プレーンテキスト。また、標準で対応するシステムはファイルサーバー(SMB)、Salesforce(添付ファイルのみ)、SharePoint Onlineだが、顧客の要望に応じて追加開発もできる。リレーショナルデータベースや他のクラウドストレージ上の文書ファイル、さらにはチャットやメールのテキストデータも検索対象にすることも可能だ。

 また、DiscoveryBrainがパッケージとして提供するのは検索エンジン部分のみであり、ユーザーが検索を実行するユーザーインタフェース部分は顧客ニーズに合わせた個別開発となる。APIを備えているため、一般的なWebインタフェースのほか、他の業務システムやポータルへの組み込み開発、さらにチャットツール向けのボット開発も可能である。

ユーザーインタフェースは顧客ニーズに応じて開発する。Web検索インタフェースだけでなく、API経由での既存システムへの組み込み、チャットボット連携なども可能

 キヤノンITSでは、同製品の対象業務/ユースケースとして、製造業や建設業における設計図やマニュアルなどの検索、研究開発業務での論文検索、類似特許文書の検索、営業業務における提案書や見積書の検索、教材作成時の過去問題検索、医療機関での診療文書検索などを例に挙げている。

ユースケースの例。顧客からの提案依頼書(RFP)を使い、類似する過去の提案資料を検索

 DiscoveryBrainの価格(税抜、年間利用料)は、1ノード(1サーバー)ライセンスが420万円、3ノード(3サーバー)ライセンスが750万円。同社では3ノード以上のクラスタ構成での利用を推奨している。

カテゴリートップへ

本記事はアフィリエイトプログラムによる収益を得ている場合があります

アクセスランキング

  1. 1位

    トピックス

    “持たない家電”ランキング、もはや定番のアレがやっぱり1位なような

  2. 2位

    トピックス

    思い切った慶應義塾 全教職員にNotion導入で168年分の知的資産をAIに食わせるプロジェクトが始動

  3. 3位

    トピックス

    リモートワークは福利厚生なの? ITエンジニアが本当に欲しい福利厚生第1位となる

  4. 4位

    ビジネス

    管理職こそ大事にしないとまずくないか? 約4割が「続けたい、と答えない」現実

  5. 5位

    トピックス

    インバウンドの頑張りランキングベスト3は「大分県」「岐阜県」「佐賀県」 努力が光る結果に

  6. 6位

    TECH

    訓練だとわかっていても「緊張で脇汗をかいた」 LINEヤフー、初のランサムウェア訓練からの学び

  7. 7位

    TECH

    身代金要求攻撃の被害額は「1社平均6.4億円」 それでも6割超が「支払いを否定しきれない」苦境

  8. 8位

    データセンター

    液冷技術の最先端が集うイノベーションラボ「DRIL」、印西のデータセンターに現わる

  9. 9位

    ITトピック

    管理職ほど機密情報をAIに入力している実態、なぜ?/27卒学生の就職人気、IT業界トップ企業は/最新インシデントの傾向10パターンまとめ、ほか

  10. 10位

    ビジネス

    ランチ抜きが22%!? 物価高で「水筒・コンビニ控え」が定着する中、なぜか「推し活・美容費」だけは死守するオフィスワーカーたち

集計期間:
2026年04月15日~2026年04月21日
  • 角川アスキー総合研究所