ライティングの仕事を根底から変えるゲームチェンジャー現る

音声の文字起こし作業が大幅削減！　CLOVA NoteのAI音声認識がスゴイ

2022年06月30日 11時00分更新

文● 柳谷智宣　編集●MOVIEW 清水

　2022年5月24日、LINEのAIテクノロジーブランド「LINE CLOVA」から無料のAI音声認識アプリ「CLOVA Note（クローバ・ノート）」のβ版がリリースされた。無料というのでちょっと試してみたところ、大きな時短効果が得られた。これから手放せなくなりそうな予感もする。そこで今回は「CLOVA Note」をレビューしてみよう。

LINEのAI技術を活用したAI音声認識アプリ「CLOVA Note」

1時間の音声ファイルが1分でテキストに。発声者も認識する

　ライターである筆者はインタビューや講演で録音した音声データの文字起こしをすることが多い。録音データをPCで再生と一時停止を繰り返しながら、テキストで打ち込んで行くのだ。1時間の音声があれば早くても2時間はかかってしまい、聞き取りにくい場合はさらに4時間、5時間かかることもある。ライターとしてもっともボトルネックになっているタスクで、昔から音声認識アプリが出たら積極的にレビューしていた。しかし、タイピングスピードを超える精度の下書きを得ることができなかった。これまでは。

　CLOVA Noteは果たして使えるのか？　高鳴る気持ちを抑え、CLOVA Noteのサイトに移動し、「新しいノートを作成」をクリック。新規ノートが作成されたら「ファイルアップロード」をクリックし、音声ファイルをアップロードし、音声の種類を選択する。日常会話や会議、インタビュー、講演、通話音声といった項目が用意されており、正確に認識するために役立つそう。

　テストは実際の取材データをたくさん利用したのだが、記事中ではYouTubeのアスキーチャンネルから「目からウロコのPDF使いこなし術【アクロバット連載100回記念放送】」の音声を利用してみた。

「CLOVA Note」にLINEアカウントでログインする

音声ファイルをアップロードして、音声の種類を選択する

アップロードと認識が始まる。1時間の音声であれば、1分程度で完了する

　ファイルをアップロードして少し待つと文字認識が終了する。ちらっと冒頭を見ただけでクオリティの高さに驚いた。まず、話している人を認識しているのがスゴイ。それもそのはず基盤となる「CLOVA Speech」は、自己教師あり学習による最新の音声認識技術を利用しており、話者分離については話者ダイアリゼーション技術の国際コンペティション「DIHARD3（2021年）」にて世界3位となっているのだ。

　熊のアイコンに「参加者3」ではよくわからないので、「編集」をクリックし、その人の名前を入力すれば、一括置換してくれる。アイコンは頭文字になる。複数人数が参加する取材で、同性同年代で似た声質の人が話すと、録音を聴いていてもどちらかわからなくなることがある。文字起こしの時間をロスしてしまう上に、ミスも起きるので困っていたが、CLOVA Noteならその部分も支援してくれるのがありがたい。

文字認識が完了。話者分離できているのがスゴイ

「編集」をクリックし、話者を指定する

話者を指定できた

文字起こしされたテキストを修正しやすい編集UI

　当たり前だが、会話が完璧に文字起しできているわけではない。固有名詞やビジネス単語は似たような文字列として認識されるし、そもそも人は正確に話していない。「あー」「えー」は入りまくるし、語尾はごにょごにょになったり、声が小さくなったりと、いろいろハードルはある。

　そこで修正作業が必要になるが、これもとてもやりやすくなっている。編集モードで会話の上にマウスポインタを移動させると「区間再生」というボタンが現れる。クリックすると、該当の会話が再生され、そのままテキストを修正できる。設定画面ではよく使う単語を入力できるようになっている。ただ、いくつか登録したが、数回利用したくらいでは効果は感じられなかった。

「区間再生」をクリックして、音声を聞きながらテキストを修正できる

「設定」の「よく使う単語」で単語を登録しておくと精度が上がるとのこと

　今回、記事で取り上げた音声はスタジオで録音しているので、とてもクオリティが高く、驚くべき精度で認識されていた。やはり音声の品質が重要と言うことだ。しかし、実際の取材ではノイズが入ったり、声が小さかったりと条件が悪いことが多い。その場合は、認識ミスも多くなる。

　そのため、どちらにせよ1度は通して音声を聞きながらテキストを修正する必要がある。文字起ししたデータは右上の「…」メニューから「音声記録ダウンロード」をクリックするとダウンロードできる。その際、「時間記録を含む」と「参加者を含む」のオプションを選択できる。これがとてもありがたい。両方にチェックすると会話の時間と発言している人を記載してくれる。しかし、原稿にする場合はすべて削除するので、頭からすべての音声を聞く場合や、1人の相手に取材しているならオプションを外してもいい。

「…」メニューから「音声記録ダウンロード」をクリック

時間記録や参加者のオプションを選択して「はい」をクリックするとテキストファイルをダウンロードできる

　テキストファイルをダウンロードしたら、まずは間違って認識されている単語を一括置換機能で修正してしまおう。固有名詞などをその都度直すのは手間がかかるからだ。

原稿アップにかかる時間が大幅に短縮されてとても作業が効率的に

　あとはいつも通り原稿を執筆するのだが、効率が全然違う。通常は音声を聞きながら猛烈な勢いでタイピングしまくり、間に合わなくなれば一時停止して、入力する。しかし、ある程度きちんと認識したテキストがあると、カーソルキーでおいかけて、「えー」などを削除したり、誤認識している所を修正する。同じ誤認識が続くようであれば、一括置換をしていくと、後半になるとほとんど一時停止しなくても作業を進められる。

　実際にいくつかの仕事をCLOVA Noteで文字起こしをしたのだが、圧倒的な時短になった。話者がとんでもない早口で話す事例があったのだが、この場合は誤認識やそもそも認識していない文章が多々あった。とはいえ、このように音声品質が低い場合は人間でも苦労するので、結局は下書きがある方が早く作業できた。

　感覚的には1時間の音声ファイルからの原稿執筆で、通常3時間かかるところ、1時間10分とかで終わる感じだ。2日に1回は文字起こし作業をしているが、2時間のセーブは本当にありがたい。取材仕事は文字起こしがネックになっていたが、これでもっと多くの本数を受けられるようになりそうだ。

置換機能で誤認識をまとめて修正する

　今回はPCブラウザー版を紹介したが、もちろん、スマホアプリも用意されている。音声ファイルのアップロード上限は1ヵ月1アカウントにつき300分と大盤振る舞い。さらに、AI学習のための音声データ活用を許可すると600分も利用できる。もちろん、データ活用を許可しても、研究目的にしか使われず、ユーザーIDと紐付けられることはないので安心だ。

iOS版の「CLOVA Note」アプリ

iOS版の場合はiCloudもしくはiPhone内の音声ファイルを読み込める

　登場して1ヵ月のβ版でこれだけ認識できるCLOVA Noteはゲームチェンジャ－になりそう。特に話者を正確に聞き分けられるのが強い。無料で利用できるので、誰もがAIの力を自然と享受できるのがLINEらしい。現在は、固有名詞や英単語の認識が弱いが、それも一括変換で対応すればなんとかなるし、今後バージョンアップして精度が向上していくことだろう。筆者の収入もダイレクトに増えそうだし、まさに神アプリがお目見えしたと言っていいだろう。

■関連サイト