このページの本文へ

前へ 1 2 次へ

栗原潔の“エンタープライズ・コンピューティング新世紀” 最終回

エンタープライズサーチの真の価値を探る(9)――多様な領域に広がるサーチの可能性

2008年02月19日 14時33分更新

文● 栗原潔

  • この記事をはてなブックマークに追加
  • 本文印刷

 サーチを実現するためには必然的に高度な言語処理と文字列処理が必要となる。これらの機能はサーチエンジンそのものだけではなく、さまざまな関連領域でも活用できる。最終回である今回は、このような関連領域について見ていくことにしよう。

名寄せ処理への応用


 サーチテクノロジーの興味深い応用のひとつがデータ統合などで必要になる「名寄せ処理」だ。

 名寄せ処理とは、同一のエンティティー(データのまとまり)に対応する複数のレコード(1つのエンティティとして扱われるデータの集まり)をひとつにまとめる処理である。

 銀行に同一人物が「複数の口座」を持っている際に、それを同一顧客の情報として管理できるようにする──のが典型的な例だ。また、昨今では年金の記録における名寄せがきわめて不適切であり社会問題化していることは周知だろう。

 名寄せの処理では、氏名や住所などをキーにしてまとめることになるのだが、これは現実には容易ではない。例えば、住所にしても「東京都千代田区九段北1丁目13番5号」という形式もあれば、「千代田区1-13-5」という形式もある。氏名でも同じ人物でありながらレコードによって「斉藤」と「斎藤」が混在しているケースがあるだろう。これを「ひとつのもの」として判断するためのロジックが必要だ。

 サーチエンジンにおいて本質的に必要になる「文字列の類似性評価」機能はこのようなロジックの一部として活用できる可能性がある。

 完全な自動化は困難であっても、同じエンティティーである可能性が高いということを人間に対して示唆し、人間が最終的な判断を行ないやすくできる。もちろんサーチが提供する類似性評価機能だけで、このような名寄せ処理が実現できるわけではない。例えば、旧地名と新地名のマッピング、郵便番号から住所へのマッピング、NHKと「日本放送協会」は同じエンティティーを指すというようなドメイン知識を組み合わせて初めて可能になるものだ。

前へ 1 2 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン