最近は海外出張に出かけることが多く、現地のエージェンシーや事業会社で働く SEO担当者たちと情報交換する機会も増えました。そこで彼らが注目している領域の1つが音声検索です。私も2019年(あるいは2020年)の SEOの注目トピックを挙げるなら、間違いなく音声検索は含めます。
まだ日本国内の、検索マーケティング領域における音声検索の関心度はそれほど高くないと感じますが、これは音声認識の精度や利用シーンの制約など諸事情が欧米(英語)のそれと異なるため致し方ないと思います。とはいえ、将来的には一定の割合で音声による情報アクセスが一般的になると考えています。
本記事では、音声検索の将来の可能性に関する統計や調査データを紹介していきます。
なお、英語の文献を探すと数多くの統計調査データが出てくるのですが、よくよく調べてみると元の発言から解釈が歪められたり元ソースが不明なものが散見されます。ここではよくネット上でエビデンスとして引用されるけれども不確かなものは省いています。
音声検索の普及のカギは「99%の精度」(Andrew Ng, 当時Baidu)
中国百度のチーフサイエンティスト・Andrew Ng(2014年当時、現在はLanding.ai を経営)の音声検索に関する発言は、音声検索の未来を語るうえで最も頻繁に引用される発言の1つです。彼は音声検索が広く一般に普及するための指標として、音声認識精度が99%に達することが1つのカギだと説明しています。
But it's getting closer. Meeker's presentation cited Andrew Ng, former Stanford professor and current chief scientist at Chinese search engine Baidu, as saying that 99 percent is the key metric: As accuracy in low-noise environments rises from 95 to 99 percent, voice recognition technology will expand from limited usage to massive adoption. [Andrew Ng, Who's Smartest: Alexa, Siri, and or Google Now?, Inc. June 3 2016]
As speech-recognition accuracy goes from 95% to 99%, we'll go from barely using it to using all the time! https://t.co/TfjqJLDTPJ
— Andrew Ng (@AndrewYNg) December 16, 2016
Google は「モバイル検索の約20%は音声検索」(Google I/O 2016)と説明しているのですが、日本のそれはもっと低いと考えられています。理由は昨年公開した記事「音声検索は SEO の未来をどう変えるのか?」でも触れていますが、音声認識精度が原因の1つだと考えています。単純に英語と比べて使いにくいのです。その英語の認識精度もまだ課題があるのですが、日常的に不自由を感じることなく使えるレベルとして「99%」は妥当なところだと思います。
もっとも近年はスマートスピーカーのセキュリティやプライバシー問題も意識されるようになり、広く一般に普及させるにはまだ解決しなければならない課題があります。
2020年までに検索の半数は音声または画像検索に(Andrew Ng, 当時Baidu)
In five years time at least 50% of all searches are going to be either through images or speech. [Andrew Ng, Code Conference, September 14 2014]
こちらも Andrew Ng氏による将来の予測です。2020年までに少なくとも検索の50%が音声あるいは画像による検索に置き換わるとのことですが、50%まで達すると考える米国の業界関係者は少数です。スマホを使ったカメラ検索(Googleレンズなど)の登場なども踏まえると、おおよそ30%あたりではないでしょうか。
なお、同様の調査として comScore (2020年までに約半数が音声検索になる)のデータも引用されることが多いのですが、関係者によると comScore の元データは Andrew Ng氏の発言であり、その発言がどこかで歪められて "images" の部分が抜け「音声検索が50%に達する」となってしまったようです。
Windows 10タスクバー検索の25%は音声検索 (Microsoft)
検索エンジン・Bing を運営する米Microsoftが出しているデータです。Windows 10 のタスクバー(タスクバーに用意された検索窓で、端末およびネットの情報を検索できる)を使った検索の約25%が音声による検索とのこと。これは Windows 10 を搭載したタブレット端末や 2in1、クラムシェル型の PC を含んでいますので、キーボード入力よりも音声入力の方が楽な利用シーンもそれなりにあることを考えると納得がいく数値だと思います。
Representatives of Microsoft’s search engine, Bing, stated at Search Insider Summit this past Thursday that a now quarter of all searches performed on the Windows 10 taskbar are voice searches. In addition, voice searches are becoming longer. Voice searches tend to fall between six and 10 words, compared to the average of 1 to 3 words for text searches. [Bing Says 25% of All Searches are Voice Searches, SearchEngineJournal, May 8 2016]
また同社は音声検索の傾向として、テキスト検索(キーボード入力)よりも検索語数が多くなる傾向を指摘しています。テキスト検索の平均入力数(※ 英語のワード数なので日本語の文字数をそのまま当てはめることはできない点に注意)は1~3ワードなのに対し、音声検索の平均入力数は6~10ワードとのこと。発話(口語)の場合は自然文になること、検索語句とは直接関係ない言葉が含まれやすいためと考えられます。
2020年までにウェブ閲覧の30%はスクリーンを介さない音声主体へ(Gartner)
By 2020, 30 percent of web browsing sessions will be done without a screen. New audio-centric technologies, such as Google Home and Amazon's Echo, are making access to dialogue-based information ubiquitous and spawning new platforms based on "voice-first" interactions. By eliminating the need to use ones' hands and eyes for browsing, vocal interactions extend the utility of web sessions to contexts such as driving, cooking, walking, socializing, exercising and operating machinery. As a result, the share of waking hours devoid of instant access to online resources will approach zero. [Gartner Reveals Top Predictions for IT Organizations and Users in 2017 and Beyond, Gartner, October 18 2016]
Gartner の調査で、2020年までにウェブブラウジングの3割はスクリーンを介さないで完了する、つまりスマートスピーカーなどと音声のやりとりで完了することを意味しています。引用文中でも説明があるように、これは運転時や料理、散歩、運動時などスクリーンを見る余裕がない・見るのが不便な利用シーンを前提としています。こうした場面であることと、音声認識技術の発達状況を考えると、こんなもの(30%) かと思います。Amazon や Google がスクリーン付のデバイスを投入しているように、スクリーンと音声の組み合わせで初めて便利になる利用シーン(たとえば後述する音声ショッピング)もあるので、この動向の読み方には注意が必要です。
2022年までに半数の消費者が音声ショッピングを利用する(MoffettNathanson)
米MoffettNathanson による音声ショッピング(音声のやり取りで商品を購入する)の予測です。現在(2018年)はわずか5%の利用者に過ぎない音声ショッピングが、2022年までに50%に達するというもの。OC&C Strategy Consultants による別の調査では、音声ショッピングで購入する商品カテゴリの1位が食料雑貨(20%)、2位がエンターテイメント(19%)、3位が家電製品(17%)、そして4位が洋服(8%)となっています。
半数以上の米国の Amazon Echo はキッチンで利用されていることを考慮すると、食糧雑貨品が1位になるのは頷けるところです。
In two years, voice shopping, or v-commerce, could be as popular as mobile shopping is today, according to recent survey data from MoffettNathanson. So far, less than 5% of consumers use voice shopping, but that number could reach 50% by 2022, the report found. [MoffettNathanson, How's Your V-Commerce, Walmart?, TheStreet, April 5, 2018]
The three most commonly shopped categories through voice are commoditized: grocery (20%), entertainment (19%) and electronics (17%). Clothing is fourth at 8%. [OC&C Strategy Consultants, Voice Shopping Set to Jump to $40 Billion By 2022, Rising From $2 Billion Today, February 28, 2018]
スマートスピーカーは信頼される必要がある(Accenture UK)
スマートスピーカーの普及を考えるうえで最近不安視されてきたのがセキュリティーとプライバシー問題です。Accenture UK による調査では、少なくとも1週間に1回以上スマートスピーカーを利用しているユーザーのうち、約1/4が決済を避けると回答しています。また、27% のユーザーは(スマートスピーカーなどの音声対話対応の)デバイスを通して送金することが心配と回答していること、1/5 がデバイスに音声を盗み聞きされないように声を小さくすると回答していることなどが紹介されています。48%のユーザーが、こうしたデバイスが常に会話を盗み聞きしていると信じていることが原因のようです。
A poll of 1,000 UK adults who use voice assistants at least once a week found more than one quarter shy away from using their device to make payments, while 28 per cent were hesitant to use it to pay bills. Another 27 per cent worried about transferring money through their device. Samsung plans smart speaker to rival Amazon Echo and Google Home The study by Accenture UK also found more than one in five admitted they leave the room or lower their voice to make sure their device cannot spy on them. [Many voice assistant users have ‘trust issues’ with their device, study claims, Independent, September 12, 2018]
音声検索および音声コマンド普及を妨げるもう1つの要因が「使い道がわからない」。これは米英どちらの調査でもよくあげられる要因です。機器の使い道がわからないので活用できないというもっともな理由です。ここでは Google UK の実施した調査を紹介すると、「57%のユーザーが、もっと複雑なコマンドを理解できるようになれば検索ツールを使いたい」「42%が、音声検索の最適な使い道がわかれば、もっと利用する」といった調査結果が出ています。
Commenting on the results, Matt Bush, Director of Agencies – Google UK, says: “Our research shows the sheer potential of voice and search more broadly as a way for brands to authentically communicate with audiences. By taking time to learn how consumers are using it, considering the impact external factors have on consumer perceptions, as well as acknowledging ways search can be enhanced across voice, text and mobile platforms, it will become a hugely successful channel of communication that will lead to personal and engaging connections with those who matter most – consumers.”[Matt Bush, Director of Agencies, Google UK, Voice takes off: 42% of Brits “using voice search daily”, Netimperative, June 28, 2017]