このページの本文へ

遠藤諭のプログラミング+日記第41回

もう何も信じられないかそれ以下の時代がやってくる

「動画版アイコラ」(Deepfake)が問いかける“ヒト”と“コンピューター”の悪夢的近未来とのつきあい方

2018年03月07日 17時00分更新

文● 遠藤諭(角川アスキー総合研究所)

  • この記事をはてなブックマークに追加
  • 本文印刷
YouTubeに公開されているトランプ大統領の顔をして演説するヒラリー・クリントン(上)。ドイツのメルケル首相(下左)もトランプの顔に。

「なにを信じたらいいかわからない」がトレンドになるか?

 デジタルの世界に限らないのだが、2つ以上のトレンドの流れがぶつかって新しい時代を作りだすというのはよくあることだ。たとえば、「ブロードバンドネットワーク」と「モバイルコンピューティング」が作り出したのが、「スマートフォン」であり「クラウドコンピューティング」や「ソーシャルメディア」の時代である。

 1年ほど前、私は、「マストドン」(Mastodon)というツイッター型のミニブログについて書いた。これは、フェイスブックなど大手プラットフォーマーに“集中”し過ぎたネットに対する“分散”への揺り戻しである。コンピューターの70年ほどの歴史を見ると“集中”と“分散”は延々と繰り返されてきたテーマなのだ(つまりバランスが求められる)。いうまでもなく「ブロックチェーン」も“分散”の議論を象徴するトレンドの1つとみることもできる。

 そうした大きな変化をいま感じざるをえないのが、「人間は何を信じればよいのか?」というテーマである。すなわち、「人工知能」と「ソーシャルメディア」という2つの流れが生み出しつつあるひょっとしたら前述2つよりも本質的な“問いかけ”ともいうべきトレンドである。

 ディープフェイク(Deepfake)は、“人工知能によって生成された偽の情報”の中でも映像のことをいう。2017年12月頃から米国のコミュニティサイト「Reddit」で話題になりはじめたもので、その中でも「フェイクポルノ」は、日本のネット文化的にいえば「アイコラの動画版」である(アイコラ=アイドルの顔をAV女優の写真などに貼り合わせた画像)。

 『ワンダーウーマン』のガル・ガドットの義理の兄とのセックスシーンの映像は、米国のネットで話題になった(もちろんというべきか本物ではない)。映画『ロード・オブ・ザ・リング』の登場人物の顔がすべてニコラス・ケイジの顔になっているなんてのもある。

 手間をかければ可能だったポストプロセスの1つだが、これのための便利な「FakeApp」というソフトも公開されてブームに拍車をかけた(グーグルの機械学習ライブラリ「TensorFlow」が活用されている)。人物Aの顔の映っている大量の映像と、人物Bの映っている大量の映像があれば、いまの顔認識技術をつかえば入れ替え可能なのはシロウトでも想像がつくだろう。

 そして、Redditなどでフェイクポルノの投稿が禁止されることになる(ディープフェイクの違法性についての議論もあるのだが)。ドナルド・トランプ大統領の顔を、ヒラリー・クリントンやドイツのメルケル首相の演説に貼りつけた映像は、いまもYouTubeで見ることができる。それによってかどうかは不明だが、BBCやニューヨークタイムズが少しシリアスに報じはじめているように見える。



 
ヒラリー・クリントンの顔がトランプ大統領になっている。



 
ドイツのメルケル首相の顔がトランプ顔に。こちらはビデオカメラの揺れにもキレイに追随している。

 正直、どちらの映像もデジタルフォレンジックや法医学の出番になるような仕上がりではない(そもそも見間違わせるものでもない)。人工知能的に作られた画像や映像によくある“ボケ”た部分が残されているという意見もある。しかし、技術というのは我々の想像を超えるスピードで進化することがままある。

 このあと何が起こりうるかは少し考えれば誰にも想像できることだ。たとえば、人工知能技術によって音声変換やリップシンクの質もどんどん向上している。自分の思うとおりに米オバマ前大統領やロシアのプーチン大統領(正確には彼らの映像)を喋らせるという実験ビデオを見てほしい。



ドイツの科学者による大統領たちをリアルタイムで自在に喋らせる実験。左下のターゲットの人物の口が左上のテスターの口の動きのとおりに動く。

 アイコラの動画版が可能になって、さらには音声変換やリップシンクによって自分の思うようなことを誰かに喋らせることができるようになる。たとえば、特定の人物に嫌いな奴をおとしめる発言をさせることができる。いまのところ大量の動画がネット上にある有名人が使われているが技術はそれも不要にする可能性がある(歩き方で人を判別する「歩行認証」が可能なのだから逆に似た動作を作りだすことができる)。そうなったら、我々はなにを信じて生きていけばいいのだろう?

人工知能とソーシャルメディアの組み合わせは最悪ではないか?

 2016年の米大統領選挙でのロシアによる「フェイクニュース」(fake news)は、選挙結果に影響を与えたとされる。それが、文字がら「映像」になったときにどんな破壊的、かつ悪夢的な影響をおよぼしうるのだろう。人間は、視覚的なメッセージに心理的な影響を受けやすいことは、さまざまな実験であきからになっている。鏡の代わりに自分の顔の口を広げて映し出す装置で、その日一日を明るくスタートできる「扇情的な鏡(東大廣瀬・谷川研究室)なんてのもある。

 この話題をあつかったBBCのニュースでは、「ハイエンドPCがあればハリウッドのギャラはいらない」と煽っていた。私の大好きな映画『ファントマ(Fantômas)』をリメイクしたら、主人公の怪盗ファントマは得意のゴム製のマスクは捨ててこれを使うに違いない。喋っている映像や音声だけでなく、さまざまなファクトを組み合わせれば、Skypeを使ってオレオレ詐欺的な取引をする人も出てきうそである。年寄の心配をしている場合ではない。

 もっとも、米大統領選挙に影響をおよぼしたフェイクニュースの作者の一人で、昨年死亡したポール・ホーナー氏は、トランプ支持者はファクトチェックをしない人たちだと述べていた。

 「人は何を信じればよいのか?」というような話ではない。ファクトすら不要なくらい人間は凄い。どうも「人工知能」×「ソーシャルメディア(つまり人間)」の組み合わせが最悪に近いのだ。自動運転やアマゾンGO(レジ不要のスーパー)のような画像認識の活用は、そうでない点においてよいと思う(ベゾスは考えていると思うが町全体がアマゾンGOの中にスッポリ入ってしまったらそれはそれで便利だろう)。

 それに対して、おしゃべりで信じやすい人間をつなぐしくみに人工知能がからむと想像できない結末を招く可能性がある。暗号技術と映像の組み合わせが、こうしたことに対する解決策は導きだしうるのだろうか? ちょうど、「窃盗」というものに対して「錠前」を発明したようにと考えるのは楽観的であるようにも思う。

 いまのところ、日本の「技術の無駄づかい」が好きなエンジニアたちは、ポルノや政治の分野よりも、初音ミクや萌えキャラ方面に費やすそうする傾向がつよいように見えるが。

遠藤諭(えんどうさとし)

 株式会社角川アスキー総合研究所 取締役主席研究員。月刊アスキー編集長などを経て、2013年より現職。角川アスキー総研では、スマートフォンとネットの時代の人々のライフスタイルに関して、調査・コンサルティングを行っている。著書に『ソーシャルネイティブの時代』、『ジャネラルパーパス・テクノロジー』(野口悠紀雄氏との共著、アスキー新書)、『NHK ITホワイトボックス 世界一やさしいネット力養成講座』(講談社)など。

Twitter:@hortense667
Mastodon:https://mstdn.jp/@hortense667

カテゴリートップへ

この連載の記事
ピックアップ