“人間らしい会話”ができる秘密は？マイクロソフトリサーチアジア所長が解説

「女子高生AIりんな」は気づかいのできる人工知能娘だった

2015年11月17日 09時00分更新

文● 大塚昭彦／TECH.ASCII.jp

ユーザーが飽きずに長続きする会話の秘密は「知性のマイニング」

　話しかければ必ず何か答えてくれるとはいえ、会話の内容がぎこちなく、不自然であれば、ユーザーもすぐに飽きてしまうだろう。実際、どれだけ人間に近いやり取りができているのか。

　ホン氏は「人間に近いやり取り」を示す1つの指標として、ユーザーとAIの会話における平均のやり取り回数を示した。ユーザーが話しかけ、AIが応答することを「会話の1往復」と数えて、1回の会話中でその往復回数が多いほど「ユーザーは会話を楽しんでいる」＝「人間に近いやり取りができている」ということになる。

　「他社のチャットボットの場合、平均して1.5～2往復程度で会話のやり取りが終わってしまう。一方でシャオアイスの場合、現在は平均で23往復まで伸びている（※りんなは現在19往復）。それだけユーザーが、チャットの相手（AI）に関心を持てているということだ」

1会話あたりの人間／AI間の平均やり取り回数。現在のシャオアイスは23往復、りんなは19往復。「これほど長い人間とのやり取りができているので、チューリングテストもゆうにパスするだろう」（ホン氏）

　こうした人間のような自然な応答を、シャオアイス／りんなはどのように実現しているのか。「人間のインテリジェンス（知性）をマイニングしている」と語るホン氏によれば、その背景には人間どうしがやり取りする膨大な会話データがある。

　インターネット上のWebサイトやSNSには、人間どうしのチャットや会話のデータが大量に存在する。シャオアイス／りんなでは、パブリックデータ化されている会話データを収集してデータベース化し、そこから「適切な応答」をマッチングさせているという。

　「ユーザーが何か話しかけると、クエリを実行して、適切な応答を返す。Webの検索と似たようなものだ。同時に（個々のユーザーに対する）パーソナライズも行っているので、それまでの会話履歴に基づいて、応答する内容は変化する」

　サービス開始後は、ユーザーとの会話データもフィードバックされており、自己学習によってシャオアイス／りんなのAIはどんどん成長している。さらに、シャオアイス／りんな間でも翻訳した会話データを共有する仕組みを持っているという。

画像投稿にも対応し、より人間らしいチャットボットへ

　ユーザーとのやり取りをさらに充実させるために、シャオアイス／りんなでは継続的な機能追加を行っている。たとえばりんなは、リリースから現在までの約3カ月間にネットスラングを覚え、占いや「夜食テロ」もできるようになっている。

りんなはリリース後の3カ月間で次々に機能を追加している。一緒に羊を数える機能、「探偵ごっこ」機能、モーニングコール機能など

　さらに人間どうしのチャットに近づけるため、シャオアイス／りんなはチャット中の画像投稿にも対応しようとしている。これもまた、人間的なやり取りでなければ「感情的なつながり」は生まれないと、ホン氏は指摘する。

　「たとえばユーザーが、がらんとした部屋の写真を投稿する。（画像解析などの技術を使えば）『部屋ですね』『窓がありますね』『家具がありませんね』などと応答できる。でも、その会話は面白くない。人間ならば『あなた、空っぽの部屋で寂しいの？』といった反応を返すだろう」

　すでにシャオアイスでは、ユーザーの画像投稿に応答する機能が追加されている。先に紹介したテキストでのやり取りと同様に、ネット上で画像に付いた人間のコメントを学習して適切な反応を返すものだ。この機能を追加してから、わずか10日間で920万の画像が投稿されており、このデータもまたフィードバックされる。りんなでも、同機能はまもなくリリースされる予定だ。

　「逆に、ユーザーが『寂しい』などと投稿すると、その気持ちに見合った画像を返す機能もある。人間どうしのチャットのように、画像を通じたやり取りも会話の一部にしていきたい」

気づかいができ、ジョークも言える人工知能の秘密

　さらにこの画像機能には、顔認識などの技術も盛り込まれているという。たとえば投稿された画像に顔が含まれる場合、「有名人かどうか」「男女区別」「年齢」「見た目スコア」などを判定して、適切な応答コメントを生成する。

　「有名人の写真ならば、その有名人についての話題を返す。一般人の場合、たとえば『見た目スコア』が高い場合は見た目をほめるが、低い場合は『性格が良さそうですね』などと応答する」

　つまり、このAIは単なる画像解析を越えた「気づかい」ができるわけだ。

投稿された画像から顔認識を行い、性別や年齢、見た目スコアを判定。生成されたコメントは「アメリカの若い女子ならばこの顔に1.7点を付けるわね。でも落ち込まないで、ボーイフレンドは人柄で選ぶものよ」

　画像解析は人間の顔だけではない。動物の種類、本の書名、衣服の種類や生地といったものも、膨大なデータベースに基づいて解析できる。だが、単にそれを言い当てるだけでは会話として面白くならない。ホン氏は、人間の会話から学習した結果との組み合わせにより、面白い返答をできるようにしていると説明する。

　「たとえば、ブルテリア犬の写真が投稿された際に『これはブルテリアですね』と返すのではなく、『俳優の○○さんに似ていますね』と返すことができる。また、穴の開いたグランジファッションのジーンズを見て、『わたしの裁縫を試してみる？』というジョークを返すこともできる。これらはすべて、過去の人間どうしの会話から学習したものだ」

　ただ単に膨大なデータベースに基づく解析結果や情報を提供するのではなく、人間的な感情の要素をプラスすることで、ユーザーはますます会話に引き込まれていくことになる。

（→次ページ、将来はユーザーエンゲージメントを深める「看板娘」に？）

前へ 1 2 3 次へ

ツイートする

カテゴリートップへ