このページの本文へ

松下が全文検索の検索ノイズを低減する技術“字面解析型単語分割方式”を開発

1999年07月22日 00時00分更新

文● 編集部

  • この記事をはてなブックマークに追加
  • 本文印刷

松下電器産業(株)は、全文検索において検索効率を下げる“検索ノイズ”(*1)を減らす技術として、“字面解析型単語分割方式”を開発したと発表した。

一般に全文検索では、文章を単語に分割する際に、辞書にある単語をもとに文章を区切る方式を利用しているが、同社の開発した字面解析型単語分割方式では、まず文章から単語リストを自動生成し、それをもとに単語を分割する。同方式は、字面情報(*2)から新しい単語を抽出する“字面n-gram方式”と、その後、単語の分割位置を推測する“分割点多重推測方式”の2つの方式で構成される。

“字面n-gram方式”は、漢字2~3文字の単語や形容詞など18種類の単語の抽出を行なう。漢字2文字の単語の場合、文章から漢字2文字が連続した部分を、その前後の文字列を含めて取り出し、N-gram(*3)を作成する。そして、その前後の文字列をもとに、単語と判断できる漢字2文字を抽出し、単語リストに加える。これにより、たとえば、「この作品は、」であれは、前後のパターンから「作品」が抽出されるが、「絵の具箱を、」では、対象となる「具箱」の前が「絵の」となり、漢字と「の」の組み合わせのため、「具箱」は抽出されないという。

“分割点多重推測方式”は、字面n-gramにより抽出した単語リスト、数値表現、助詞、文字種の変わり目/出現パターンなどをもとに単語分割位置を推測する。

同社では、この方式のメリットとして、新語など辞書にない単語が出てきても単語の分割が高精度(約90パーセント)で行なえるうえ、単語リストの自動生成も同時に行なえる点を挙げており、同社の全文検索ミドルウェア『PanaSearch』で2000年度の実用化を目指すとしている。

*1 「京都」で検索して「東京都」が一致する例など、利用者の質問に適合していない検索結果のこと

*2 ひらがなや漢字など、文字の種類や字くばり(ならび) など、文法や意味をともなわない情報

3* ある決まった長さ“n”個の文字からなる文字列で、意味は考慮されないが、文字列の文字数に基づくアルゴリズムを適用する

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン