このページの本文へ

遠藤諭のプログラミング+日記 第30回

“Echo”と“Alexa”は何が凄いのか?

アマゾンは米大手ネット企業なのに社内でコーラが無料じゃないそうだ

2017年11月10日 09時00分更新

文● 遠藤諭(角川アスキー総合研究所)

  • この記事をはてなブックマークに追加
  • 本文印刷

日本では今回発売されなかったポータブル版のEcho TAP。私のモスクワのスタバのタンブラー(日本ではプレミアのついていた超レアもの)と比べると高さはほぼ同じ。「あなたの質問に対する答えを見つけられませんでした」(Sorry I can't find the answer to the question I heard.)と返されると『宇宙家族ロビンソン』でフライデーが「計算できません」と返してきたのを思いだす。

3軸の戦略がガッチリ組まれている

 「いつでるのか?」とIT業界関係者に言われ続けていたアマゾンのスマートスピーカー「Echo」が、ようやく日本でも発売となった。なにしろ、米国でのデビューは2014年末だから約3年遅れての登場である。登場したのは、新型「Echo」と「同Dot」、「同Plus」の3モデル。米国では発売されている画面付きの「同Show」や私も所有しているポータブル版の「Tap」は含まれないが、まずは基本ラインナップが発売されたかっこうだ。

 おどろいたのは、国内発売と同時に日本の22社から250本以上のスキルが提供されることだ(実はKADOKAWAも提供予定で角川アスキー総研のTwitter解析テレビ番組指標の「視聴熱」を喋るらしいのだが知らなかった)。もっとも、昨年6月頃にEchoに触りたいと思ったのは「スキルの数が1000本を超えた」というニュースを聞いたからなのだが、同社は、1年後の今年6月にAlexaのスキルが15000本を超えたと発表、現在は20000本以上あるという。ちょっとしたスキルインフレ状態である。

 グーグルも「Google Home」を発売していて、LINEも「Clova WAVE」を発売ずみだが、スマートフォンの“アプリ"に相当する「スキル」戦略で、アマゾンが抜んでているのは一目瞭然というものだ。ボイスアシスタントという意味では、一歩先んじていたはずのアップルの「HomePod」は米国等で年内に発売予定。「しゃべってコンシェル」を展開してきたNTTドコモもAIエージェントサービスと専用スピーカーを発表しているが、なんとなくモヤっとして見えにくい。

 そう感じるのは、アマゾンの「スキル戦略」、「プレミアム会員制」、「IoT/クラウド連動」の3つの軸があまりに鮮やかだからだ。米国でEchoの人気に火がついたときに、我らがスティーブ・ウォズニアックはスマートフォンに続く「ネクスト・ビッグ・シングはこれだ!」と言ったそうだが、いまから他企業がこの分野で対抗できるんだろうか? あるとしても少し違ったものになるんじゃないかと思っている(ネクスト・ネクスト・ビッグ・シングもやがて登場するでしょう!)。

 さて、昨年6月にEchoに触ってみたときに『週刊アスキー』の連載《神は雲の中にあられる》で書いたのは以下のような内容だった。1年以上前のものなので周辺事情は大きく変化しているが、逆に、冷静にEchoを見ている気もする。

TAPでは前面のボタンを押して話かける。「手放し」がEchoの神髄なのでポータブル版は今後はあまり積極的に展開されないのかもしれない。LEDがブルーのときは「聞いているよ」ということを示している。

 “スキル"という言葉が、いま米国のネットデジタル業界では、最もホットなワードの1つになっている。“スキル"(skill)というのは、ご存知のとおり、なんからの仕事をこなす能力のことだ。ところが、いま盛り上がっている“スキル"というのは、米国アマゾンの“Echo"というスマートスピーカーに関するものだ。なぜ、スピーカーと“スキル"が関係あるのかといえば、これには“Alexa"という人工知能が搭載されている(Alexaといえばアマゾンが提供するウェブサイトのランキングサービスの名称でもあるのだが別モノなので念のため)。

 米国では'14年末に発表、日本では未発売のEchoはどんな製品かというと、部屋のどこかに置いて声をかけると反応してくる。いつも“聞き耳"を立てているわけではなくて、“Siri"と同じく“アマゾン!"とか“アレクサ!"と呼びかけるのだが(wake wordと呼ぶ)、要するに、据え置き型の“人工知能アシスタント"である。

 たとえば、アマゾンで購入した音楽(あるいはアマゾンクラウドに自分でアップロードした音楽)やこれもアマゾンで購入したサウンドノベルの再生、その日のニュースやスポーツの結果、天気予報、交通状況などを教えてくれる。単語の意味や単位の変換など便利機能もある。“いちいちスマートフォンを手にすることなく"、いままで画面をタッチしてやっていたことができる。ついでに、プレミアム会員限定だが、アマゾンでの買い物ができるところが、同社ならではのフィーチャーといえる。

 しかし、ここまではEchoの当初のニュース記事を読んで感じていた内容のままである。ところが、米アマゾンが6月3日に発表したニュースを見て、私は、それまでの自分の勉強不足を呪いながら認識を180度変えてしまったのだ。そこに出てきたのが、冒頭で触れた“スキル"というキーワードなのである。

 スキルというのは、Echoを初期状態からあとに追加できたりする機能のことである。ロボット的なので、機能というより“スキル"(能力)と呼ぶのが確かにシックリくる。これは、ちょうど、スマートフォンにアプリケーションをインストールして使う感覚に似ている。アマゾンの発表というのは、この家庭用人工知能に追加できるスキルが1000を超えたという内容だったのだ。つまり、Echoが“成長する人工知能"であることを米国のIT業界が認めて、アマゾン以外の企業などが我先にとどんどんスキルを作りはじめている。具体的には、ドミノピザ、Uber、フィットネスのFitbit、金融系サービスのCaptal Oneなどのサービスが、Echoから使えるそうだ。

 Echoシリーズには、今年3月、家の中で移動したりピクニックなどに持っていける充電式の“Tap"と、手持ちのブルーツーススピーカーにつないで使う“Echo Dot"といった弟分(?)も発売された。その使い心地については、YouTubeにあがっているデモを見ていただくのが早いかもしれない。Tapの場合は起動ワードの代わりに、本体正面のボタンを押すのだが、デモで注目なのはホームパーティのシーンで「裏庭の電気をつけて」とTapに話しかけて持っていくくだりである。要するに、EchoやEcho Tapは、ホームオートメーションのための“IoT"デバイスでもあるわけだ。

 実際のところスキルの開発キットの情報を見ると、Echo(というよりもAlexa)は、音声認識をするという点をのぞけば、"人工知能"というよりも"人工無能"に近い内容のようですらある(人工無能=高度な言語の理解は一切せずに相手のことばの一部を覚えていてそれらしく対話するだけのプログラム)。要するに、Echoは、いままでのアプリやサービスと同じクラウド上のプログラム(Alexaではエンドポイントと呼んでいる)にコマンドを受け渡すための入り口でしかないように見える。逆にいえば、それだけ"人工知能的ではない"思想だからこそ、既存のサービス提供社がスキルをどんどん作れるわけだ。

 これは、私のまったくの予想だが、アマゾンのジェフ・ベゾスCEOは、'13年に『ワシントンポスト』を買収したときに、Echoのアイデアを思いついたのではないかと思う。当時、アマゾンが新聞社を買ってニュースを手に入れたとしてどう活用するのか? 株主やメディアなどから突っ込まれていたからだ(実際にEchoが伝えるニュースはラジオ局やESPNのスポーツ情報などらしいが)。ところで、このAlexaという人工知能システムはアマゾン以外の製品も含めてEcho以外の端末にも広げていくそうだ。となると、腕時計型Echoに向かって買い物するなんてこともあるんじゃないか? たぶん、すごくシンプルな形で実現できそうである。

※『週刊アスキー』2016年7月26日発売 Vol.1088 「神は雲の中にあられる」より一部加筆訂正

Tapのクレードル。アマゾンは、ジリジリと野火が広がるように市場を取ることを信条にしているので1個1個のスター的な商品で売り出すアップルとは対照的で、Echo Tapは売れたようには見えないが気にしていないかもしれない。Echo全体で見ても昨年火がつくまで気長な取り組みをしてきた。

“ニワトリ”が先か“タマゴ”が先か? “サービス”が先に決まっている

 この原稿の中では、IoTの部分にあまり触れていないが、Alexaのシステム内部でも3つのスキルの基本形態の中の1つがホームオートメーション専用である。一方、Echoの音楽再生では、ちょうどフィリップスのHueで電球1つ1つのほかに部屋ごとに明るさなどをコントロールできる感覚で部屋ごとのEchoをコントロールできる。いかにもホームオートメーションを意識しているといえる。

 このように、アマゾンが、ユーザーの部屋構成までも知るようになると将来的にどんなところまでいってしまうのか? と心配する人もいると思う。各社が、そうした情報集めのためにスマートスピーカーで競争しているというのは本末転倒だと思うが、どのメーカーもIoTに重きを置いているのは明らかだ。たとえば、アマゾンのやっていることを色を塗ってつぶしていくと、将来的に調理ロボットを提供する可能性があると思う。Echoと相談してメニューを決めて、アマゾンから食材を注文、ロボットが調理して、Echoが「料理ができました」と教えてくれるようになる。

 1960年代のテレビアニメ『宇宙家族』(原題The Jetsons)にいちばん近いところにいるのは、いまのところアマゾンなのだ。Echoとアマゾンの戦略を俯瞰して日本企業がいちばん注意しておくべきことは、サービスがハードウェアを生み出す時代が完全に来つつあるということだ。Uberが車を作っているというのも同じお話である。サービスさえあれば、いきなりハードを作るわけじゃないから家電メーカーがループに入りがちな“ニワトリ”と“タマゴ”の議論とも無縁だろう。

アマゾンEchoはギーク的には《こころざしが低い》から成功した

 後半の人工無能に近いという部分が少しわかりにくいので補足しておきたいと思う。一般的なボイスアシスタントは、Siriもしゃべってコンシェルもロボホンも、「~と言われたら~と答える」の組み合わせで作られている。それをもとに「文法規則」や「マルコフ連鎖」や「オントロジー」などの技術や手法を応用して会話の流れを作りだす努力がされてきた(いまならもっとAI的なアプローチが生かされているのだろうが=とにかく想像力を必要とするシステムが書かれてきた)。

 Alexaも同じように想定文を並べたりするのだが、いままでウェブで提供していたサービス(その代表がアマゾンにおける買い物やコンテンツを提供するサイトだろう)に入力データを渡すことしか考えていなかったように見える。入力欄(それに相当する変数をAlexaではスロットと呼んでいるが)を埋めて投げるためのルーチンと、音声でやりとりする言語処理的なところの2つがあればいい。ピザなら、ピザの種類、トッピング、枚数と、必要項目があって不足したら三角形にビックリマークのついた赤い文字が表示されるしくみのようなものだろう。

 実際には、1年前に比べてはるかに高度で複雑なスキルがたくさん登場しているので、そうとも見えなくなっているが、そんな“思想”が感じられるところがジェフ・ベゾスならではというものではないか。

 アマゾン流の1つ飛び越えたアイデア(ウェブでクリックするとこっそり初代Kindleに落ちてきたウィスパーネット、注文がくる前に出荷する特許、ただのクラウドソーシングみたいになる前の細かな仕事をシステムが人間にやらせるアマゾンメカニカルターク、画面上のクリックボタンを冷蔵庫に移設したダッシュボタン、ドローン配送など)は、個人的にとても好きだ。

 1つ1つのサービスを支えているのは高度な技術のはずだが、課題のこなし方において謎かけのようなジョークのような軽みがある。それとは対照的に、グーグルやアップルやマイクロソフトのようなギークな会社は、ついつい人間のようにふるまう立派な人工知能をめざしてしまう。それのために、情熱と技術と工数をかけてしまう。それとは少し違っているところにアマゾンはいる。その証拠といえるか、同社は、米国大手ネット企業にあって社内でコーラが無料じゃないそうだ。



 ところで、9月に開催した「アマゾン“Echo & Alexa”上陸直前!! AIボイス・アシスタント3時間集中講座」が大変に好評だったので追加開催することにした。ご興味のある方は以下からお申込みいただきたい。

http://lab-kadokawa35.peatix.com/

【参考リンク】

アマゾンEcho(https://www.amazon.co.jp/dp/B071ZF5KCM
Alexaスキルガイド(https://www.amazon.co.jp/alexa-skills/b?ie=UTF8&node=5262653051


遠藤諭(えんどうさとし)

 株式会社角川アスキー総合研究所 取締役主席研究員。月刊アスキー編集長などを経て、2013年より現職。角川アスキー総研では、スマートフォンとネットの時代の人々のライフスタイルに関して、調査・コンサルティングを行っている。著書に『ソーシャルネイティブの時代』、『ジャネラルパーパス・テクノロジー』(野口悠紀雄氏との共著、アスキー新書)、『NHK ITホワイトボックス 世界一やさしいネット力養成講座』(講談社)など。

Twitter:@hortense667
Mastodon:https://mstdn.jp/@hortense667


カテゴリートップへ

この連載の記事
ピックアップ