このページの本文へ

NICTと沖電気、ウェブページから新語を獲得する技術を共同開発

2005年07月21日 22時59分更新

文● 編集部

  • この記事をはてなブックマークに追加
  • 本文印刷

独立行政法人の情報通信研究機構(NICT)と沖電気工業(株)は21日、ウェブページから新語を獲得して属性を判別する技術を共同開発したと発表した。検索エンジンなどの情報検索/抽出システムの精度を向上できることから、ユーザー向けインターネットサービスへの導入を推進するとしている。

インターネット上では次々と新語が生み出されており、情報検索や情報抽出を行なう場合、辞書に登録されていない新語が含まれていると検出や抽出の精度が下がってしまうが、ウェブページでは、内容/用語/書式などがさまざまであるため新語の自動獲得が難しいという。また、獲得した新語を情報抽出システムなどで利用するには、用語が人名や組織名、専門分野のものなのかなどの属性を判別しなければならず、自動で判別することが難しかったという。

今回開発した技術は、収集したウェブページに対して“形態素解析”を行ない、文中の形態素列の頻度と、その前後の形態素の異なり数を指標とした関数を利用して用語を獲得するもので、名詞だけから構成される用語だけでなく、助詞などを含む用語も獲得できるのが特徴。さらに、“固有表現抽出”や、既存辞書とのマッチングを行なうことで、用語を構成する形態素に素性を割り当て、用語の属性を判別。形態素に素性を割り当てられない場合には、その形態素の用語全体に対する影響を考慮することで属性を推定するという。また、実システムへの実装を考慮し、処理を高速化しており、テキストで200MBの収集済みのウェブページ(約1億文字、2年分の新聞記事に相当)を平均1日で処理できるとしている。

今後も、NICTと沖電気は共同研究を継続するとしており、沖電気は、ISPなどに提供している情報収集支援サービス“MAILPIA”や、産学連携支援ツールとして沖電気と(株)三菱総合研究所が共同開発している次世代型検索エンジン“Bluesilk”への導入を進めるという。

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン