死蔵する音声データ　テキスト、画像に続かない理由を1冊の本をきっかけに考えた

音声データはなぜAI活用のメインストリームにならないのか？

2024年09月10日 14時00分更新

文● 大谷イビサ　編集●ASCII

　テキスト、画像に比べてAIでの利活用が進まなかったのが音声データだ。声を用いた音声インターフェイスはそれなりに普及してきていると思うが、ビジネスでの利用はまだまだ。今後、音声データの利活用は進むのか？　1冊の書籍をきっかけに、課題と解決を考えてみた。

曾田武史氏の「音声&AIがもたらすビジネス革命」（幻冬舎）

音声データを活かすテクノロジーは身の回りにいっぱい……だが

　もう2ヶ月も前になるが、音声解析AIを手がけるMiiTelの発表会に参加してきた（関連記事：未開拓な「音声」をAIで企業の資産に　RevCommが新発表と書籍を紹介）。発表会では新サービスを取り上げていたのだが、全体の1/3程度は社長である曾田武史さんが執筆した「音声×AIがもたらすビジネス革命」（幻冬舎）という書籍の内容紹介だった。生成AI時代の音声データの利活用に関して、さまざまな示唆が得られる本だが、本コラムは感想文ではない。「音声データが会社の中で死蔵され、AIでなかなか利活用されていない」という本書内の指摘について掘り下げようと思ったのだ。

　個人的に音声とAIについて意識したきっかけは、今から8年前のAWS Summit 2016の講演だ。このときのテーマはもちろん「Amazon Echo＆Alexa」。登壇したジョドワニ氏は、「タッチインターフェイスの時代は過去の時代のものになる」と述べ、音声によるインターフェイスの未来についてアピールした（関連記事：国内販売は？音声認識＆人工知能のAlexaで生まれる未来）。音声インターフェイスはさまざまなメリットを持っている。音声入力はフリック入力に比べて3倍高速という調査もあるほか、手と目をふさがないため、「ながら」での利用が可能というメリットもある。

　実際、Amazon Alexaのような音声認識デバイスが多くの家庭に置かれるようになり、スマホでの音声入力の精度も上がり、多くのユーザーが音声インターフェイスに慣れ親しむようになった。企業においても、音声を利活用するツールは整っているように思える。最近ではWeb会議サービスが会話をテキストとして起こし、議事録を生成してくれる。また、コンタクトセンターでは顧客とのやりとりが録音され、通話品質の向上に役立てられている。今では真新しいソリューションという訳ではない。

　しかし、ビジネスで音声データを利活用する場面はまだまだ少ない。チャットやメールでテキストや画像は日常的にやりとりしているが、音声データを業務でやりとりすることはほとんどないだろう。インタビューを日常的に行なっているという職業柄、個人的には録音した音声には日常的に触れてはいるが、これも録音を聞いて原稿を起こすというアナログな使い方に過ぎない。一般的なビジネスパーソンが音声データを日常的にビジネスに活かすという場面はまだまだ多くないはずだ。

　音声データが死蔵しているパターンは多い。書籍には「録音データと音声データは違う」とあるが、録音データを解析することで、どのような価値を見いだすのかが不明瞭なため、溜めるだけにとどまっているのが現状だ。結局のところ「なにか起こった際の記録」という監視カメラに近い保険的な使い方にとどまってしまい、売上や顧客対応の向上には結びつかない用途になる。

利活用が進まない3つの理由を考えてみた

　ツールやテクノロジーがあるのに音声データが利活用されないのはなぜか？　いくつかの理由が考えられる。

　1つ目は、音声認識に対する信頼感がまだまだ足りてない点にある。私に関しては、結局Alexaを操作しきれなかったことで、音声認識の精度に不安を感じるのが理由だ。ただ、これに関しては、AIの精度向上の目覚ましいので、最新のサービスを使ってみるべきだろう。実際、期待値を上回る精度を得て、曾田さんのように音声インターフェイスで本を執筆しようと考える人も一定数いるはず。すでにテクノロジーはあるのだ。

　2つ目は、インプットの品質が挙げられる。音声はインプットの品質にきわめて大きく影響される。人間の耳には十分聞き取れる音量でも、録音機器がきちんと拾ってくれるかはわからない。文字起こしアプリのOtterを使ったところ、大規模な講演会場と1on1のインタビューでは精度が大きく異なっていた。音声AIのデモで失敗に出くわすことが多いのも、結局はインプットが安定していないからだと思う。インプットが安定しないと、せっかくのAIが成果を出せず、精度が低いという烙印を押されてしまうわけだ。

　3つ目は、音声のコミュニケーションをデジタル化することに対する抵抗感だと思う。音声は人との会話で用いられる基本的なインターフェイスであるがため、本音が吐露されやすく、感情も乗りやすい。こうした本音と感情の乗るコミュニケーションをデータ化されることに対して、一定の抵抗感を持つ人がいるのは事実だろう。

　音声データはプライバシーとも関わってくるので、使う側だけの都合で利活用できないという課題もある。これは顔認証などとも同じ。セキュリティという観点では、フェイク音声の脅威も現実的になっている（関連記事：有名人そっくり、増え続けるAI音声　“声の権利”どう守る）。さらにコンタクトセンターの分野では、コミュニケーションで音声を使わない「ノンボイス化」という動きすらある。心理的な障壁だけでなく、市場動向としても、企業の音声データの活用に風向きはアゲインストだ。

　いろいろ考えた末、ビジネスでの音声データの利活用が本格化するのは、1つのキラーアプリにかかってると言いたい。チャットボットや配膳ロボットの普及は、人手不足という差し迫った課題に対して、成果の上がるシナリオが描けていたかだと思う。同じように顧客満足度や売上向上、採用数の増加、離職率の防止など、きちんとしたシナリオにはまるキラーアプリがあれば、音声データの利活用は進むはずだ。たとえば、カスタマーハラスメント防止のような用途であれば、従業員を守るという御旗の元、接客記録として音声データを活用する企業は多いのではないだろうか？　より具体的な価値がまだまだ見えにくいのが、音声データの課題だ。

大谷イビサ

ASCII.jpのクラウド・IT担当で、TECH.ASCII.jpの編集長。「インターネットASCII」や「アスキーNT」「NETWORK magazine」などの編集を担当し、2011年から現職。「ITだってエンタテインメント」をキーワードに、楽しく、ユーザー目線に立った情報発信を心がけている。2017年からは「ASCII TeamLeaders」を立ち上げ、SaaSの活用と働き方の理想像を追い続けている。

ツイートする

カテゴリートップへ