家事をしながらでもAIで音声を自分の外見に変換してZoom会議などができる「xpression camera Voice2Face」がリリース

2022.10.26 08:00

PR TIMES

株式会社EmbodyMe
株式会社EmbodyMe（エンボディーミー）は、AIで音声を自分の外見に変換して、家事をしながらなど、どんな状況でもZoom会議などができる「xpression camera Voice2Face（エクスプレッションカメラボイストゥーフェイス）」をリリースしました。（URL：https://xpressioncamera.com/）また、LINEのスタンプのような対面では実現できない感情表現手段を提供することで、対面を超えたまったく新しいコミュニケーションを生み出します。

当社はこれまで、Zoomなどのビデオ会議やYoutubeなどのライブ配信で、カメラで顔の表情や体の動きを読みとって、自分の外見をAIで置き換えてリアルタイムにコミュニケーションができる「xpression camera」を提供してきました。

これをさらに向上、発展させ、カメラがなくても音声だけを入力としてリアルタイムで映像を生成でき、さらにボタンをクリックするだけで、対面では実現できないような多彩な動きを生成し、より豊かな感情を表現できる新技術「Voice2Face」を開発し、大幅にリニューアルしました。

コロナ禍で、仕事、診療、教育、イベントなど社会的な活動の多くで、ビデオチャットなどの動画コミュニケーションが急速に普及しました。
しかし一方で、誰もが「対面に比べたコミュニケーションのとりづらさ」を感じており、喫緊の課題となっています。

昨今メタバースが注目を集めている大きな理由は、こうした課題を、VRデバイスを使って対面での体験にできる限り近づけて解決しようとしているためです。
しかし、まだVRデバイスをほとんどの人が持っておらず、VRデバイスを長く装着することによる疲れの問題も解決されていないなど、普及にはまだまだ長い時間がかかると予想されているのが現状です。
「xpression camera」は「対面に比べたコミュニケーションのとりづらさ」を、メタバースのように対面での体験にそのまま近づけて解決しようとするのではなく、そもそもなぜ対面が優れているのかという根本の原因に立ち返り、それを対面とは違ったバーチャルならではの切り口で解決します。

そもそもなぜ対面が優れているのかという原因には、「Zoom疲れ」という問題と、非言語情報や感情表現手段の不足があります。
「Zoom疲れ」はビデオチャットで心理的、身体的な疲労感を感じる現象のことで、常に自分の頭や視線の向きをカメラの方向に固定して小さい画面の中の他人と頻繁に目線を合わせなければならないことや、セルフビューが表示されているために他人から常に見られているように感じてしまうことによる緊張感が原因だという研究結果が出ています。
また、対面でのコミュニケーションと比べると、表情、身振り、手振りなどの非言語情報が伝わりづらいので、スムーズな意思疎通が図りづらく、特にオフィスでの雑談や、Zoom飲み会のような非言語情報がより重視されるカジュアルなコミュニケーションが、オンラインでは失われてしまっています。

「xpression camera」は、自分の写真など好きな画像を一枚用意するだけで、自分の表情や体の動きに応じてリアルタイムで映像を生成でき、自分の実際の姿を見せないため、自分がどう見られているか気にせずにコミュニケーションができます。
さらに今回リリースする新技術「Voice2Face」は、カメラを使わずに音声だけから、リアルタイムで自分の外見を生成できるようになるため、リラックスした体勢、自由な環境でコミュニケーションすることが可能となり、Zoom疲れを軽減、解消することができます。
子供の面倒を見たり、家事をしながら、ジョギングをしながらなどどんな状況でもビデオチャットができるようになります。

また、ボタンをクリックするだけで、LINE のスタンプのように、対面のコミュニケーションではできないデフォルメされた動きも取り入れた豊かな感情表現を、画面上の自分の映像やアバターを通じて実現できるようになります。
このことにより、LINEのスタンプがテキストによるコミュニケーションに非言語情報である感情表現をもたらしたように、動画コミュニケーションにこれまでなかった新たな感情表現をもたらし、対面を超えたまったく新しいコミュニケーションを生み出します。

昨今、Stable Diffusionのようなテキストから画像を生成する技術が大きな注目を集めています。
アメリカを代表するベンチャーキャピタル、セコイアは、こうしたAIでコンテンツを生み出す「Generative AI」は、スマートフォンの時と同じような大きな社会の変革を起こし、将来的に数百兆円の市場規模になると予想しています。
https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/

Stable Diffusionのようなテキストから画像を生成する技術と、「xpression camera」を組み合わせると、簡単に映像を生成することができます。
テキストから画像を生成する技術のみだと、イラストや漫画、アートといった市場にとどまっていたのが、「xpression camera」を使うことで映画、テレビ、アニメ、ライブ配信、ビデオチャットといった映像全般の幅広い市場に可能性を広げることができます。

弊社技術は、他の世界のどの競合企業よりも少なくとも５０倍以上高速で、弊社技術のみが一般的なマシンで、ビデオチャット、ライブ配信、ゲームなどでリアルタイム動作するという優位性があります。
こうした優位性をさらに発展させていき、「Generative AI」の大きな変革において、技術、文化で世界を牽引してまいります。

※ Stable Diffusionで生成した画像の表情をリアルタイムで動かして動画を作成することができます。

＜アプリサイト＞
https://xpressioncamera.com/

＜Voice2face動画＞
https://xpressioncamera.com/voice2facevideo

本記事はアフィリエイトプログラムによる収益を得ている場合があります