AI関連企業のArgmaxは4月5日現在、OpenAIの音声認識AI「Whisper」を利用した文字起こしアプリ「WhisperAX」のベータ版を公開している。対応機種はiPhone、Apple Silicon搭載Macと、Apple Watch Series 9/Ultra 2。アップルのテスト環境提供アプリ「TestFlight」から試用可能だ。
注意:ベータ版アプリは端末に予期せぬ不具合を起こすリスクもあるため、一般ユーザーの方は正式版公開後の使用をおすすめします。
機能はリアルタイムで文字を起こす「Stream」と、録音データから文字を起こす「Transcribe」の2種類。
アプリ上ではバージョン違いのAIモデルが複数用意されている。用途に合ったものを事前に選択し、ダウンロードする仕組みだ。ダウンロード完了後もAIモデルの起動(ロード)時は毎回ネット接続が必要となるが、起動中はオフライン状態で各機能を利用できる。
筆者も「iPhone 15 Pro」で本アプリを試してみたが、ダウンロードサイズが954MBと最も大きなAIモデル(whisper-large-v3 turbo)でも、オンライン、オフラインともに問題なく動作した。
リアルタイムでの書き起こし速度は、ほかの書き起こしサービスと比較して極端に速いわけではないが、2024年4月現在の技術としては及第点といえるレベルだ。
日本語の書き起こし精度は無料サービスとしては十分なレベル。「書生」を「諸星」とするなど、同音異字をあてるミスを起こしやすい点は少し気になったが、こうしたミスはほかの日本語書き起こしサービスにも多かれ少なかれ存在するため、whisper-large-v3 turbo特有の現象というわけではない。
WhisperAXで利用できるAIモデル間の比較では、筆者が試した限り、whisper-large-v3 turboがもっとも高い精度で日本語を書き起こすことができた。whisper-large-v3 turbo以外のAIモデルは日本語を上手く認識できないこともあったので、日本語書き起こし用途に関してはwhisper-large-v3 turboを選んだ方がよいだろう。