NTTコミュニケーションズ(株)(NTT Com)は21日、テレビで放映される5分程度の生放送ニュース番組にリアルタイムで字幕を表示するシステムを商用化し、22日に受注開始する。従来の字幕制作システムに比べて、事前の準備が10秒程度に短縮され、放送中の字幕送出を自動化しているため運用者が0名で済むのが特徴という。価格はソフトウェア一式(Windowsが動作するパソコンシステム一式が別途必要)で300万円(税別)。
![]() |
|---|
| 全自動リアルタイム字幕制作システムの概要 |
今回発表された全自動リアルタイム字幕制作システムは、北海道放送(株)(HBC)や鹿児島テレビ放送(株)(KTS)などの地域放送局数局と共同実験を実施し、放送品質に耐えうるという評価が得られたため、商用化に踏み切ったという。
![]() | ![]() | ![]() | ||
|---|---|---|---|---|
| 発表会に出席した先端IPアーキテクチャセンタ所長の原 隆一氏 | 同じく端末・配信プロジェクト情報変換チーム担当課長の吉川 博氏 | 端末・配信プロジェクト情報変換チームの粟田定樹氏 |
字幕放送が必要な背景として、端末・配信プロジェクト情報変換チーム担当課長の吉川 博氏は、「音の出せない場所や周りの音が多い場所でもテレビを楽しみたいというニーズがあり、字幕がユニバーサルサービスとして求められるようになった。例えば電車の中でワンセグ放送を見るのが一般的になってきた状況がある」とした。加えて、同チームの粟田定樹(あわださだき)氏は「難聴者の増加も背景にある。現在約35万人が聴覚に何らかの障害を持ち、加齢による難聴者を含めると約600万人、国内人口の約5%に上ると推定される。こうした状況から総務省は字幕付与可能な放送番組すべてに字幕を付けることを目標として打ち出したが、NHKは100%(放送番組全体における字幕表示の割合は43%)実施しているのに対して、民間放送は78%(同33%)にとどまる。この理由としてテレビ局の現場からは『字幕付与のために人員を1名でも追加することが困難』という声が聞かれている」と、全自動リアルタイム字幕制作システム開発の理由を述べた。
このシステムでは、以下の3つの手順で字幕の全自動送出を実現している。
- 放送用原稿を字幕テキストに変換する(読みやすくするための改行や空き、注釈などを取り除いたテキストに変換)
- 放送内容に対して音声認識を行ない、スタジオアナウンサーの音声を認識
- アナウンサーの音声認識の結果と字幕テキストを照合して、発話タイミングに合わせて字幕テキストを自動送出
![]() |
|---|
| 事前に放送用テキスト(画面左)を字幕表示に使えるプレーンなテキスト(画面右)に自動変換する。注釈の記入方法については、NTT Comが用意するいくつかのパターンで記述するよう、テレビ局側の歩み寄りも必要だという |
従来の字幕制作システムでは、アナウンサーの音声や読み方、難読文字などを事前に登録しておく準備が1~2時間程度必要で、さらに放送中に発音に合わせて字幕を送出する運用者が1人(字幕をリアルタイムに聞き書きする場合は2~5人程度のタイピスト)が必要だった。
![]() |
|---|
| 全自動の字幕送出システムの画面(左)と、字幕を表示した放送画面(右) |
さらに、リアルタイムに音声認識して文字送出する場合には、直前に修正するとしても95%程度の高い認識率が必要だったが、このシステムでは事前に送出するテキストの完成形が用意されているため、認識率80%程度でも放送内容との照合が可能となる。そのため、事前の音声登録(エンロール)や文字登録などの準備が不要というメリットがある。ただし、事前の原稿がない中継先からのレポートやVTR映像についてはこのシステムでは字幕送出ができないため、既存の字幕表示システムなどと組み合わせる必要があるという(組み合わせての運用も可能)。
NTT Comでは今後、字幕付きニュース映像のインターネットコンテンツへの二次利用展開や夕方に放送される30分程度のニュース番組にも対応できるシステム拡充を行なうほか、ASP(アプリケーションサービスプロバイダー)事業としての展開、ならびにコールセンターやテレビ会議システム、議事録の作成支援などに応用していきたいとしている。



















