このページの本文へ

iPhoneで日本語のリアルタイム文字起こしができる「WhisperAX」

2024年04月05日 15時00分更新

文● @sumire_kon

  • この記事をはてなブックマークに追加
  • 本文印刷

 AI関連企業のArgmaxは4月5日現在、OpenAIの音声認識AI「Whisper」を利用した文字起こしアプリ「WhisperAX」のベータ版を公開している。対応機種はiPhone、Apple Silicon搭載Macと、Apple Watch Series 9/Ultra 2。アップルのテスト環境提供アプリ「TestFlight」から試用可能だ。

注意:ベータ版アプリは端末に予期せぬ不具合を起こすリスクもあるため、一般ユーザーの方は正式版公開後の使用をおすすめします。

 機能はリアルタイムで文字を起こす「Stream」と、録音データから文字を起こす「Transcribe」の2種類。

機能選択画面のスクリーンショット

 アプリ上ではバージョン違いのAIモデルが複数用意されている。用途に合ったものを事前に選択し、ダウンロードする仕組みだ。ダウンロード完了後もAIモデルの起動(ロード)時は毎回ネット接続が必要となるが、起動中はオフライン状態で各機能を利用できる。

AIモデルの選択画面

AIモデルの選択画面

 筆者も「iPhone 15 Pro」で本アプリを試してみたが、ダウンロードサイズが954MBと最も大きなAIモデル(whisper-large-v3 turbo)でも、オンライン、オフラインともに問題なく動作した。

 リアルタイムでの書き起こし速度は、ほかの書き起こしサービスと比較して極端に速いわけではないが、2024年4月現在の技術としては及第点といえるレベルだ。

 日本語の書き起こし精度は無料サービスとしては十分なレベル。「書生」を「諸星」とするなど、同音異字をあてるミスを起こしやすい点は少し気になったが、こうしたミスはほかの日本語書き起こしサービスにも多かれ少なかれ存在するため、whisper-large-v3 turbo特有の現象というわけではない。

リアルタイム文字起こしの様子(1)

リアルタイム文字起こしの様子(1)

リアルタイム文字起こしの様子(2)

リアルタイム文字起こしの様子(2)

 WhisperAXで利用できるAIモデル間の比較では、筆者が試した限り、whisper-large-v3 turboがもっとも高い精度で日本語を書き起こすことができた。whisper-large-v3 turbo以外のAIモデルは日本語を上手く認識できないこともあったので、日本語書き起こし用途に関してはwhisper-large-v3 turboを選んだ方がよいだろう。

■関連サイト

カテゴリートップへ

ピックアップ