このページの本文へ

【INTERVIEW】連続したテレビニュースを自動的に切って自動的にキーワード付けする--龍谷大学有木教授に聞く

1999年02月04日 00時00分更新

文● 報道局 桑本美鈴

  • この記事をはてなブックマークに追加
  • 本文印刷

 従来よりマルチメディア情報資源として、ニュース映像を対象にした音声認識、情報分類の研究を進めている龍谷大学理工学部電子情報学科の有木康雄教授にお話を伺った。研究内容を誤解を恐れずに端的に説明すると、人手では区切っていない連続したテレビニュース映像を自動的に話題ごとに切り分け、自動的にキーワードを付けてデータベース化するというものである。

 現在さまざまなメディアのデジタル化が進められている。それに伴い、デジタル情報をデータベース化し、ユーザーが自分に合った情報のみを取り出せるようにするといった音声/ビデオデータの自己組織化方式についての研究が進められている。有木教授の研究室のテーマが、まさしくそれである。




テロップの自動認識と自動仕分け


----現在行なわれている研究の考え方について教えてください。

「研究テーマは、テロップ文字認識に基づくテレビニュース記事の自動分析ということです。今後テレビや新聞といったあらゆるメディアが全部デジタル化され、通信や放送が統合された状況下が来ると考えられます。その状況において、自分の欲しい情報のみを取り出したり、その情報を編集したりすることで、新しい自分の知識体系を作成していこうというのが目的です」

「知識の体系がデジタル化されることによって、これまでバラバラであった情報を自分自身でまとめることができる。情報のデジタル化が進んできた中で、テキストだけでなく映像や音声に対してのアクセス要求も強まってくるはずです。それらの情報を取り出し、自分で思考して組み立てて発信するということが自由にできないといけないと考えています。人間が“あれがほしい”といったときにすぐデータを取り出せるようにデータを仕分けしたり、あるいはデータに情報リンクを貼っておくといったことができないか、というのが発端です」


問い掛けると教えてくれるテレビ!?


----テロップの自動分析ができると、どんなメリットが生じるのでしょうか。

「現在さまざまなニュースが流れています。今ホットな話題の1つというニュースに対して、各局がどんな報道をしているのか、逐一時間待ってニュースを見なくても、データの中から取り出してこられるというようなことができないかと考えています」

「人間はいろんな出来事を、週刊誌や新聞、テレビ、ラジオなどいろいろなものを総合しながら判断しているのでしょう。それらにスムーズにアクセスできると同時に、内容がわからないとき、テレビなどに問い掛ければ答えてくれればいい。知らない用語を通じて、だんだん知識を獲得していける、テレビがいろいろなことを教えてくれるというものですね」

----それは現在のテレビの延長線上にあるものなのでしょうか。

「現在のテレビニュースを使って、今から述べるようなことをやってみようというところから研究が始まりました。単に報道を聞いている一方向ではなく、わからないことを聞けるといった対話ができる、それからすぐに必要な情報が取り出せるというシステムです。メディアとデータベースというのは切っても切れないデジタル化の流れになっているのでという意識がありまして、その辺りをベースに研究を進めています」

 以下、有木研究室の研究内容を、処理手順に沿って列挙する。

ニュース映像の記事切り出し

 NHKの5分間のニュース映像を録画し、カット点を自動的に検索する。

 まず最初にキャスターシーンがカットシーンとして検出される。続いてシーンが変わると、また検出される。映像の全体的な構図の変化を検出し、切り出しを行なう。これにより録画した映像を自動的に意味のある単位に分割することが可能となる。

 一般的に、キャスターシーンに戻ると記事内容が切り替わるため、それを任意的な切り替わりとしている。この記事切り出し結果を元にインデックス付けをし、データベース化することで、そのニュースを何月何日の何番目の記事というように検索することが可能となる。

 また、スポーツニュースに関しては、種類によって大体の構図が決まっているため、映像情報だけでカテゴリーごとに分類することが可能ではないかということで研究をしている。この映像切り出しは、現在98パーセントの認識率となっている。

アナウンサー部分の切り出し

 続いて、実際にニュース音声からアナウンサーのしゃべってる部分だけを取り出す。

 ニュース音声のパワーを1秒区間ごとに抽出し、音声区間か、音のない無音区間かを判断する。

 音のある区間と判断された部分に話者ラベル1を与え、話者1番の声をコンピューターに学習させる。以後同様に、音声区間だけを取り、話者1番の声と照合してやることで、同一話者が発話しているか、別の人物がしゃべっているかを判断し、別人物であれば、話者ラベル2を新たに与え、声を学習させる。

 最終的に、最も多く発話している話者をアナウンサーとみなし、その部分だけを取り出すことで、アナウンサー部分だけを聞くことができるようになる

スポッティングニュース分類およびキーワード認識検索

 音声認識を使ってニュース音声記事を自動的に分類する。この音声認識の手法“キーワードスポッティング”は、連続音声の中から特定のキーワードだけを抽出して認識するというもの。ニュース音声中の“総理大臣”、“自民党”といったキーワードを音声認識し、それを元に登録してあるキーワードと照合し分類する。分類する際に、政治、経済、事件、国際など10分野に対して分類確率を出しておく。分類確率が1番高いものを分類結果とし、記事を最終的に分類し、データベースを作成する。続いて、分類した記事を声で検索。キーワードをしゃべることで記事を検索するというもので、キーワードが記事にあらかじめ索引付けされているため、キーワードをもとに記事を検索して再生する。

語彙判定による情報検索

 ニュース内に出てきた単語について、声で問い掛けると、単語の内容を説明するというもの。ニュースキャスターがしゃべった後にユーザーがしゃべるという条件をつけておく。ニュースキャスターの音声とユーザーの音声とを比べて共通部分を抜き取り、抜き取った音声を認識エンジンにかけてデータベース検索し、その内容を説明したテキスト文を画面に表示するという仕組み。

個人思考を取り入れたチャンネルが可能になる!?

----今後のメディアのあり方についてお考えを教えてください。

「現在のドキュメンタリーやドラマ、ニュースの放送体系は、編集者がいて編集者の意図の元に素材を集めて組み立ててブロードキャストしているというものです。それに対して、ユーザーにはもっとナローキャスト的なもの、自分の好みに合う情報を送って欲しいという気持ちがある。
 そうなってくると、放送が体系立ったものではなく、素材がばらばらにあるような編集者なしの状況で提供されることになります。その中で、自分の欲しいものを自分の許された時間内で、自分の情報レベルにあったものを取り出してくれるといったものが必要になるのではないかと思います。
 そうなると放送局は要らないのではという疑問が生まれますね。しかし、やはり統一的な考え方も必要ですので、放送局はなくならないと思います」

「しかし、そういう個人思考みたいなものを取り入れたものが多チャンネル化の専門チャンネルを通り越していった先にはあるのではないか。情報の素材しかないけれども、それを体系化して見せるエージェントみたいなものが、データベースとインデックシングとパターン認識の連携で実現できるのではないかと考えています」

カテゴリートップへ

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン