そのビデオ会議の相手はホントに本物？進化するディープフェイク

2020年04月28日 07時00分更新

文● 谷崎朋子　編集● 大塚／TECH.ASCII.jp

オンライン会議に突然イーロン・マスク氏が闖入？ドッキリの裏側

　多くの企業がテレワーク実施を余儀なくされている昨今、オンライン会議（Web会議）に参加する機会が増えたという方も多いだろう。だが、画面越しにあなたと話しているその相手は、実は別人がなりすましたフェイク映像かもしれない――。

　ビデオ会議にアバターとして参加できるツール「Avatarify（アバタリファイ）」は、“ディープフェイク”の技術がわれわれの想像以上に急速な進化を遂げており、楽しくも少し怖い現実が今そこにあることを気づかせてくれる。

「ディープフェイク」の定義。ディープラーニング技術の高度化によって、高度に巧妙化したフェイク画像／映像の生成が可能になっている（Appier資料より）

　Avatarifyの開発者は、Samsung AI Centerのリードエンジニアを務めるアリ・アリエフ（Ali Aliev）氏。個人プロジェクトとして開発した同ツールを使って、テスラやSpaceXのCEOであるイーロン・マスク氏になりすましてオンライン会議に出席、同僚を驚かせた。このツールはオープンソースで公開されており、現在はZoomやSkype、Slackといったビデオ会議ツールで使えるそうだ。

突然のイーロン・マスク氏登場に動揺する同僚たち（アリエフ氏のYouTubeチャンネルより）

　Avatarifyは、イタリアのトレント大学やSnap, Inc.（Snapchat）の研究者たちが開発したオープンソースコード「First Order Motion Model for Image Animation（画像アニメーションの1次モーションモデル）」をベースに開発されている。

　深層学習（ディープラーニング）を用いる一般的なディープフェイク映像の場合、顔のさまざまな特徴点を抽出して集約した「エンコーダー」と、その特徴点を別人（たとえばイーロン・マスク氏）の顔写真に載せて再構成する「デコーダー」で構成される。簡単に言えば、Webカメラ映像からエンコーダーで顔の表情を抜き出し、それをデコーダーで他人の顔に当てはめるわけだ。ただし、エンコーダー／デコーダーともあらかじめ相当量の画像を学習させなければならない。

　しかし、Avatarifyが用いる上述のモデルは、デコーダーが学習する画像が1枚だけでもフェイク映像を生成することができる。アリエフ氏はこれを用いて、あたかもマスク氏が話しているかのようなリアルタイム映像を作り出したわけだ。

　もっとも、ある程度スムーズな映像を実現するにはCUDA（Compute Unified Device Architecture）を搭載したNVIDIAのGPUが必要であり、マシンにはそこそこの性能が求められるのが現状。また、前掲の映像をよく見ると顔の輪郭、目と口元の動きが不自然であり、すぐに違和感を持つだろう。それでも、こうしたテクノロジーがやがて画面越しのオンライン会議を楽しくしていくのは間違いないだろう。

スマホ1台でディープフェイク映像ができる日も近い？

　こうしたフェイク動画を作り出す技術の研究は、すでにさまざまな成果を上げている。たとえば、ミュンヘン工科大学のマチアス・ニースナー（Matthias Nießner）教授らが2016年に発表した「Face2Face: Real-time Face Capture and Reenactment of RGB Videos」（Face2Face：リアルタイムの顔キャプチャとRGB動画の再現）では、YouTube動画などのモノラル映像に対して、汎用的なWebカメラで撮影した人物の表情をリアルタイムに反映させることに成功している。

ブッシュ元大統領やプーチン大統領の“口パク”も楽勝。人間がフェイクだと見破るのは困難だ（ニースナー氏のYouTubeチャンネルより）

　さらに、アリエフ氏が所属するSamsung AI Centerでも研究が進められている。2019年5月、Skolkovo科学技術研究所との共同研究で、マリリン・モンローやモナリザの肖像写真／肖像画からフェイク動画を生成する研究結果を発表した。たった1枚の写真や絵からでもフェイク動画が作れるわけだ。

1枚の写真や絵からでもフェイク映像が生成できる。モナリザ、しゃべると案外カワイイかも（共同研究者ザクハロフ氏のYouTubeチャンネルより）

　「高品質な映像を求めるのであれば、エンコーダーとデコーダーの双方を学習させるために、数百から数千枚程度の顔画像データがほしい」。深層学習やAIの研究者でAppierのチーフAIサイエンティスト、ミン・スン（Min Sun）氏はそう述べる。ただし、その一方で「ハードウェア上の制約が解消されれば、いずれはスマートフォンを使って、1枚の写真からリアルタイムでディープフェイクを作成できる時代も来るだろう」とも断言する。