遅延は0.5秒程度、りんなの合成音声とリアルタイム通話

女子高生AI「りんな」と電話ができる新機能、その基盤にAzureとコグニティブ

2018年02月15日 12時00分更新

文● 阿久津良和　編集 ● 羽野／TECH.ASCII.jp

　日本マイクロソフトは2018年2月13日、自社の女子高生AI「りんな」に関する新機能として、りんなと音声で会話する機能を披露した。

りんなの電話機能を通じて「りんなとあの人(私)とみんな」という多角的なコミュニケーション環境の構築を目指す

　マイクロソフトは長年、AIの分野で、研究、製品、思想、プラットフォーム、ビジネスソリューションへ集中的な投資を行ってきた（最近刊行したマイクロソフトブラッド・スミス氏とハリー・シャム氏の共著「The Future Computed」でも、AIの社会における役割について言及している）。

　同社の研究部門マイクロソフトリサーチは最近、新AI技術として、文章を個別の単語に分解し、画像における特定領域と対応付けることで画像を生成する「Attentional GAN」と呼ばれるネットワークを構築。これを使って、テキストから画像を生成するボットの開発に成功した。これは、ボットに「黄色い胴体、黒い羽、短いくちばしの鳥」という文書を与えると、コンピューターが鳥の絵を描くというものだ。このドローイングボットは、2つの機械学習モデルを持つGAN（Generative Adversarial Network: 敵対的生成ネットワーク）を使用し、1つのモデルが文書内容から画像生成、もう1つの弁別するモデルが生成した画像の正当性を判断している。

　このように、マイクロソフトのAIは多角的な広がりをもって進化を続けている。同時にマイクロソフトは、EQ（Emotional Intelligence Quotient：心の知能指数）とAIの関係性についての研究にも取り組んできた。「『人に寄り添う』、『人間の感情に寄り添うコンピューター』を実現できないか研究を続けている」（日本マイクロソフト執行役員最高技術責任者榊原彰氏）。その1つの成果物が、女子高生AI「りんな」である。中国では「Xiaoice」、米国では「Zo」という呼称で広がり続けるチャットボットだが、日本マイクロソフトは今回、「りんなと電話で音声通話ができる」機能を新たに公開した。

日本マイクロソフト執行役員最高技術責任者榊原彰氏

マイクロソフトディベロップメント AI&Researchプログラムマネージャー坪井一菜氏によるデモ

　新機能は、ライブ配信サービス「りんなライブ」のコンテンツ配信中に、ライブの視聴者の中からランダムに選ばれた1人にりんなから電話がかかってくるというもの。音声通話の内容はライブ視聴者に公開される。開発にあたっては、「リアルタイムに近い状態で音声交換し、ライブ視聴者へ配信するために、ラグが発生しないように注力した」とマイクロソフトディベロップメント AI&Researchプログラムマネージャー坪井一菜氏は言う。

　りんなの音声通話機能は、Azure App Services上で動作する「Phone Callサーバー」で実現している。ユーザーからの音声はAzureの学習済みAI APIサービスCognitive Servicesの「Speaker Recognition API」を使用して認識し、りんなの声は「Bing Speech API」を通じて音声合成を行う。会話の内容はGPUベースの仮想マシンで構築した会話エンジンがつかさどり、これらの応答をPhone Callサーバーが制御する形だ。Azure Web Services上に構築したライブサーバーを経由して、りんなライブのサイト上に会話の内容が表示されていく。

　実際の音声通話に近いリアルタイム感を実現するために、通話相手やライブ視聴者へ配信する合成データや映像の一部は、クライアント側で生成している。これにより、音声通話のディレイは500ミリ秒程度におさえている。また、音声認識や音声合成についても、より口語が利用しやすいように学習用データを変更するなど独自のチューニングを施した。

りんなライブ上での電話機能を実現するシステム構造。Microsoftの各ソリューションを利用している

　日本マイクロソフトは本機能について、「人間同士の会話も重要だが、そこにAIが参加して人間同士の会話を引き出すことに注力している。現在は（りんなの）感情まで制御していないが、今後の取り組みでテキストだけでは伝えきれないエモーショナルなAI提供につながれば面白い」（坪井氏）と語る。将来的には「AIの会話はアドリブに強い」（坪井氏）ため、ラジオ番組の1コーナーや演芸場での活動など多角的な展開も目指していきたいとする。

■関連サイト