Pepperの半額!ドラえもんを目指した“愛され”ロボット:unibo
個人を認識してやり取りを学習するソーシャルロボットがこの冬登場
デモを見たら一目でファンに! 音声認識は今後も改良を重ねる
次は、テスト機を使ってデモを見せてもらった。uniboは高さ30cm強、重さ約2kgのコンパクトなロボットで、おなかのところにスピーカー、上部にマイクとカメラ、胸に学習リモコンのセンサーを搭載している。学習リモコンを利用すれば、ユーザーが帰宅したら、顔を認識し、照明やテレビを付けて「お帰りなさい」と言わせることも可能。まさにスマートホームが目指す未来だ。しっぽのようなものが出ていたので伺うと、これは電源ケーブル。バッテリーも内蔵しており、約1時間の動作が可能とのこと。
初期タイプの試作機は腕が外れないのだが、量産のための試作機は磁石で脱着できるようになっている。これは、子供が引っ張ったときに壊れないようにするため。
取材の最初に会話に割り込んでくるので、「ちょっと静かにしてて」と命令したのでずっと大人しくしていたが、「ねぇねぇ」と声をかけると返事がきた。「かわいいね」と言うと、「ほめても何も出ませんよ」と答える。なかなか、面白い。
製品版には、頭と足にタッチセンサーが搭載される。右足をイエスとか左足をノーにして、インターフェースとして活用することも考えているそうだ。その他、いろいろな機能をデモしてもらった。前田氏が「10秒後に起こして」と言うと、「わかりました。時間になりましたらお知らせいたします」と答え、その後「前田さん、10秒たちました」と知らせてくれる。「写真撮って」というと「はいチーズ」で撮影し、「こちらでよろしいですか」とプレビュー。「はい」と答えると「かしこまりました、保存しておきます」となる。「アルバム」と命令すると「本日撮った写真です」とBGM付きでスライドショーが再生されるのにはびっくりした。「今日の天気は?」と言うと、「今日は強い雨なのでお出かけの際は傘をお持ちになった方がいいかもしれません」と至れり尽くせり。速攻でファンになってしまった。
また、アプリとの連携も可能。「uniboで勉強」というと「今日も勉強頑張ろうね」と答え、学習アプリが起動する。「勉強スタート」と言って、画面の言葉を読み上げる。元はスマホのゲームで、音声認識で学習できるようにカスタマイズしたのだ。
ユーザーの話す言語を自動的に認識して、uniboの応答も変化するのに驚いた。「Call a taxi」と英語で語りかけると、大人の男性の声で英語で返答してきたのだ。日本語の声は少年のような雰囲気でかわいい感じなのだが、英語の合成音声はずいぶん渋い。将来のインバウンド用途も考えていると言うが、これは活躍してくれそうだ。できれば、声のトーンは揃えた方が違和感が少ないと思うが。
さらに突っ込んで音声認識について伺ったところ、もっと精度を上げていかなければならないとの答えだ。
「業界全体の課題にもなるが、ある程度語彙を吸収するようにはチューニングしているものの、基本は泥臭いパターンマッチングになる。音声認識の精度が高まれば、その当たりの手間は減っていく」と前田氏は語る。
さらにuniboの首は可動するため、ユーザーの顔を追従できる。指向性マイクを積んでいるので、話している人の正面を向き、綺麗な音を録るようにしている。とは言え、コールセンターレベルの定型文句ならともかく、突発的な日常会話だと認識できない部分もあるらしい。感情解析も、現在は会話の流れから、ネガポジを取っていくという形になっている。
子供でも使えるソフトウェア開発キットを用意する
uniboのSDK(ソフトウェア開発キット)もリリースする予定。
現在開発中で、簡単な操作でuniboの動作を定義できる。写真撮影はNGだったが、現状の開発画面を見せてもらうことはできた。
「ブラウザ上で動作し、子供でも使えるようになっている。フローを並べてこうすると……」と前田氏があっという間に指示を入力すると、uniboが「アスキー大好き」と言ってくれた。
「弊社としてはuniboをプラットホーム事業と考えていて、このような開発環境を用意することで、いろいろな企業が自由に使ってuniboを表現の一つのインターフェースとして使ってもらえればと思っている」と前田氏。
現在のところ、SDKではnode.jsでコードを書くことができるようになっているが、Android(Java)をいじれないようになっている。とはいえ、開発者をターゲットにするなら、そのうち解放しなければならないという見通しだ。
「まずは、uniboというモノとのコミュニケーションを楽しんでもらうのが先。そのうち、Android(Java)やネイティブ(CやC++)の環境が触れて、ということになる可能性はある」と前田氏。
顔部分のディスプレイはタッチ操作もできるが、ユーザーが利用することは想定していないという。基本的には、会話の流れで情報を収集するのだ。最終的には、OSのAndroidの画面すら出さないようにするという。