超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

2023.01.18 09:00

PR TIMES

株式会社レアゾン・ホールディングス
～音声認識の新しい"当たり前"をひらく～

株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　2023年1月18日

株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。

※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。

※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。
プロジェクトwebサイト：https://research.reazon.jp/projects/ReazonSpeech/

「ReazonSpeech」とは
「ReazonSpeech」は、レアゾン・ヒューマンインタラクション研究所が開発した高精度な音声認識モデルを中心とするプロダクト群で、それぞれ以下のような特徴があります。

ReazonSpeech音声認識モデル: OpenAI Whisper※に匹敵する高精度な日本語音声認識モデル。商用利用可
ReazonSpeechコーパス作成ツール: TV録画データ等から音声コーパスを自動抽出するソフトウェアツール。商用利用可
ReazonSpeech音声コーパス: 世界最大19,000時間の高品質な日本語音声認識モデル学習用コーパス
いずれも無償にて公開

※OpenAI Whisper : ChatGPTなど最先端のAIプロダクトを次々に発表している米国の人工知能研究所OpenAIが2022年9月に公開した高精度な音声認識モデル。従来の多くの音声認識モデルの精度を凌駕しているとして大きな話題を呼んだ。

[図] ReazonSpeech音声認識モデル実行例

[図] スマホの通話内容をReazonSpeechを使用しリアルタイムで自動文字起こししてslackに記録する例

開発の背景
近年、深層学習を用いた音声認識技術は飛躍的に精度が向上し、スマート端末等を通して多くの人がこの技術を利用できるようになりました。今後さらに技術が普及し、誰もがあらゆる端末やシチュエーションで最先端の音声認識技術を当たり前のように使えるようになれば、社会の様々な局面でコミュニケーションの質を高めたり、業務効率や生産性の改善に貢献することが期待されます。
深層学習を用いた音声認識では、高精度な音声認識モデルを得るために、音声コーパスが大量に揃っていることが必要不可欠となります。誰もが自由に使える形で大規模な音声コーパスが公開されれば、当技術の迅速な発展に大きく寄与します。英語等ではこうした音声コーパスが多数公開されていますが、日本語では商用利用も含めて自由に利用可能なコーパスは量が少なく、日本語における音声認識技術の発展と普及を妨げる大きな要因となっていました。

「ReazonSpeech」の方式
「ReazonSpeech」では、ワンセグ放送の録画データから音声コーパスを自動抽出しています。録画データから音声コーパスを構築するためには、発話単位で音声と字幕テキストを対応付ける処理(アラインメント処理と呼びます)が必要になります。大規模なデータに対して手動でアラインメント処理を行うと膨大なコストがかってしまいます。既存の音声認識モデルを利用すればアラインメント処理を自動化することができますが、その結果として得られた音声コーパスは、元の音声認識モデルやその学習に用いた音声コーパスのライセンスの影響を受けてしまいます。
そこで「ReazonSpeech」では、まず最初に小規模ではあるものの自由なライセンスで利用可能な Mozilla Common Voiceという音声コーパスから構築した音声認識モデルでアラインメント処理を行い、そこで得られた音声コーパスを元にして再度アラインメント処理を実行する、という過程を幾世代も重ねることによって少しずつ音声コーパスのサイズを増やしました。現在のサイズは19,000時間ですが、今後さらに規模を拡大する予定です。

関連技術との比較
「ReazonSpeech」コーパスを用いて構築した ESPnet ※音声認識モデルと、他の主要な音声認識モデルである OpenAI Whisper, LaboroTVSpeech との精度比較結果を示します。
※ESPnet : E2E音声処理のためのオープンソースツールキット。渡部晋治氏をリーダーとして、様々な大学や研究機関、企業に属する日本人が中心となって開発。ライセンスはApache-2.0で、商用利用も可能。

[表] CER音声認識精度の比較 (CER Character Error Rate 小さいほど良い)

一般に音声認識モデルのパラメータ数と精度はトレードオフの関係にありますが、ESPnet ReazonSpeech は、少ないパラメータ数で Whisper large-v2 と同等の精度を達成しています。
[図] Common VoiceでのCER音声認識精度(小さいほど良い) vs モデルパラメータ数(少ないほど良い)

ライセンス
音声認識モデルと音声コーパス作成ツールはApacheライセンス2.0にて公開するので、商用・非商用を問わず、誰もが自由に利用・改変・再配布し、同様のコーパスの構築・共有活動に参加できるようになります。
音声コーパスについては、 CDLA-Sharing-1.0ライセンス(著作権法30条の4を含む適用法令を遵守し、現著作権者の権利を侵害しないことが前提※)を予定しています。
※放送録画データに含まれる音声及び字幕データの権利は、元のテレビ放送の著作権者に帰属しますが、このデータを機械学習モデル構築のために使用することは、商用・非商用の目的を問わず著作権法30条の4によって認められています。
[表] ReazonSpeechの公開成果物とライセンス

今後の予定

言語処理学会第29回年次大会(NLP2023)で今回の成果について報告
より大規模で高品質な音声コーパスの継続的なリリース
多くの人が自由な音声コーパスの構築と共有に参加するための普及活動の実施

レアゾン・ヒューマンインタラクション研究所について

レアゾン・ヒューマンインタラクション研究所（所長：森大二郎）は株式会社レアゾン・ホールディングスの企業研究所です。
音声・視線・手や身体を用いたジェスチャーの認識や、マニピュレータや道具・楽器等の操作、協働ロボット技術などあらゆるユーザがより効率的に情報伝達を行うための技術について幅広く研究し、その成果を速やかに公開して、当該分野の研究と実用化の迅速な発展に貢献することを目指しています。現在、研究員を募集しています。
URL： https://research.reazon.jp

レアゾン・ホールディングスについて

「新しい"当たり前"を作り続ける世界一の企業へ」を掲げ、「アドテク事業」、「ソーシャルゲーム事業」、「メディア事業」、「フードテック事業」の4つの領域を中心に事業を展開しています。各事業領域同士で事業シナジーを高めることで、他社にはない事業展開や新規事業を創出し続けます。

■会社概要
商号：株式会社レアゾン・ホールディングス
代表者：代表取締役　渡邉真
所在地：〒164-0004　東京都新宿区四谷1-6-1
設立：2019年2月
事業内容：グループの経営戦略、経営管理・事業支援
URL：https://reazon.jp/