沖電気工業(株)は11日、ウェブ文書検索において、テキストからの数値情報を抽出することで、指定した条件範囲に入る数値を従来より正確に検索できる数値情報検索技術を開発し、同社が無料で提供しているウェブ情報収集支援サービス“MAILPIA”の新機能として追加すると発表した。
数値情報を用いた文書検索 |
開発した数値情報検索技術は、数値に関連した記述から数値情報を抽出することで検索の精度を高めるのが特徴。数値情報の抽出は、
- テキストの数字周辺に現われる単位文字列や単語の出現を基に、金額/長さ/重さといった数値に関する記述を探し、その情報から数値の属性を判定
- 判定した属性の代表単位に基づいて数字部分の大きさを換算し、数値情報として抽出(長さであれば「インチ」や「尺」といった単位を全てメートルに換算)
することにより行なわれる。
これにより、たとえば「重さ1キロから2キロのノートパソコン」というキーワードを指定して「1.2kg」という記述の情報を検索したり、「金額150,000円以下」と指定し、その価格以下で商品を販売しているショップのページを見つけたりすることが可能になるという。数値の属性は、現時点では、金額/時間/長さ/重さ/速度の5つに対応しており、今後、電圧/電流/周波数/bit/byteなどの属性にも対応するとしている。
ウェブページ/RSSの更新を定期的に検知し、更新された内容と、あらかじめ設定しておいた数値条件を比較する。条件にマッチした場合には更新された内容を電子メールで送信する | “MAILPIA”における条件設定画面 | 通知メールサンプル | ||
数値情報マッチ機能を利用したサービス |
同社では、数値情報検索技術を“MAILPIA”の新機能として無料で提供することで使いやすさの向上を目指すとしており、今後、携帯電話コンテンツサービスへの提供なども行なうとしている。