192kHzでサンプリングしたクラシック音楽などを15%に可逆圧縮!!
NTT、同社主導で開発したロスレスオーディオ符号化技術がMPEGで国際標準規格“MPEG-4 ALS”として承認と発表
2005年12月27日 19時00分更新
日本電信電話(株)(NTT)は27日、東京・大手町のアーバンネット大手町ビル内同社コーポレートニューズルームにプレス関係者を集め、同社が2002年より開発に取り組んできたロスレス・オーディオ符号化技術について、MPEG(Moving Picture Expert Group)の国際標準規格“MPEG-4 ALS(Audio Lossless)”として承認されたと発表した。
NTTコミュニケーション科学基礎研究所の人間情報研究部長 工学博士・NTT R&Dフェローの守谷健弘氏 |
会場では、同社NTTコミュニケーション科学基礎研究所の人間情報研究部長 工学博士・NTT R&Dフェローの守谷健弘(もりやたけひろ)氏が、開発の背景や技術のポイントなどを説明した。
MPEG-4 ALS開発の経緯 |
同規格には、NTT研究所で30年以上前に発明された低ビットで音声合成するためのパラメーター“PARCOR(パーコール、偏自己相関)係数”など、NTTが提案した要素技術が盛り込まれているほか、NTTと東京大学大学院情報理工学研究科の嵯峨山 茂樹教授の研究室との連携講座での共同成果研究も含まれているという。
主な特徴として、
- ロスレス圧縮で、マスターデータ(元の音源)に歪みなしで復元可能
- 時系列データを完全に復元可能な形で15~70%程度に圧縮
- 一般的なパソコンの演算処理能力で高速復号が可能で(同社の実験では48kHzのデータなら遅延時間1秒以内の復号が可能という)、伝送・蓄積コストの削減が可能
などを挙げた。
競合するロスレスオーディオ圧縮技術との比較。縦軸が圧縮率(上が高圧縮率)、横軸は復号にかかる時間(右に行くほど時間がかかる)。今回標準化した“参照デコーダ”形式でも十分高速・高圧縮を実現するが、NTTの“独自デコーダ”(独自パラメーター設定)なら、さらに高速な復号が可能になるという |
同様のロスレス圧縮技術はDVD AudioやSACD(Super Audio CD)などの専用規格として数年前から使われているほか、“Monkeys Audio”“FLAC”“OptimFrog”などフリーソフトでも流通している。しかし、これらの技術をNTTとして利用するには、詳細が公開されていなかったり、特許・権利関係が明確でなかったり、サポートがいつまで続けられるか不明、といった不安定要素があった。特に特許・権利関係が不明確なため、商用システムを構築・運用し始めてから特許使用料の請求を行なう、いわゆる“サブマリン特許”への対策が難しいという問題がある。
今回、NTTが主導で開発した技術は、MPEGで国際標準規格として承認されたことにより、
- ほかのサービスとの相互接続が容易になる
- 特許関係がクリアになるため、アプリケーションやサービスにも安心して利用できる
- 100年後も必ず使える(ドキュメントやソースコードの管理、メンテナンスを行なう)
などの優位性があると説明。今後は関連する技術を持つ数社・者(ベルリン工科大学/米リアルネットワークス(RealNetworks)社/I2R(シンガポール国立情報通信研究所))などでアライアンスを作り、“特許プール”(特許の管理や利用料の公平な分配を行なうシステム)を構築していくことも検討している、と将来的な展望も語った。
対応する入力オーディオ信号のフォーマットは以下のとおり。
- サンプリング周波数
- 最大192kHz
- 量子化数
- 32bit(整数PCMフォーマット)
- チャネル数
- 最大65536チャネル
- 浮動小数点符号化
- IEEE 754 32bit浮動小数点対応
MPEGの概略 | MPEG Audioの歴史 | |
参考資料として提示されたMPEGの概略とMPEG Audioの歴史 |
今後はMPEG-4 ALSの応用範囲を模索しながら、互換性確認試験なども進めるという。具体的な応用先としては、
- NTTグループ会社のサービス
- 蓄積配信、ネットワークサービス
- アーカイブ、専門家用圧縮解凍ソフト
- 音響データの蓄積編集(スタジオ・レコード会社)
- 一般用圧縮解凍ソフト
- オンラインミュージックストア、携帯プレーヤー、およびOSのデータ圧縮機能(標準搭載への検討)
- 音響データ以外への応用
- 生体、医療、地震、センサーアレイ、臨場感音場など
などを考えているとのこと。
会見後のQ&Aで、元の音源の15%という圧縮率はどういう場合にできるのか聞かれると、「(48kHzよりも)192kHzの高いサンプリング周波数で、かつ静かなクラシックなどの曲の場合20%まで圧縮できる。さらに脳磁場の波形データなど多チャンネルで高サンプリングレートのものでは15%程度になると思われる」と説明。また、具体的にどういった用途への展開が考えられるのか、既存の携帯オーディオプレーヤーの置き換えになるのか? といった質問に対して守谷氏は、「(Windows XPにおけるzip形式のように)OSに組み込まれれば、ユーザーが意識することなく音声データを自動的に圧縮して管理するといった用途が考えられる。そのほか携帯電話や携帯オーディオプレーヤー、通信機能を持つオーディオ家電などに組み込まれる可能性もあるだろう」と回答した。なお、エンドユーザーが実際に試用できる時期については、「いずれNTTとしてもお試しソフトを公開するつもりではあるが、早くても半年から1年はかかりそう。事業会社としてビジネスに使うこともあるが、オープンソフトウェア/フリーソフトに近い形で使うことも検討範囲に入っている」と、近い将来ユーザーが無償で利用できるようになる可能性を示唆した。