故人のSNSもAI訓練に？「球切れ」で過熱するデータ争奪戦

2024年05月08日 06時51分更新

文● Melissa Heikkilä

画像クレジット:Synthesia

生成AIブームによってデータ争奪戦が激しさを増している。ネットから無料で収集できる訓練データが枯渇しつつある今、テック企業は新たな金鉱を探している。

この記事は米国版ニュースレターを一部再編集したものです。

ディープフェイクが進化している。本当にすごいのだ。4月初め、私はイースト・ロンドンのスタジオに行き、AIビデオ・スタートアップのシンセシア（Synthesia）に自分のクローンを作ってもらった。シンセシアは私そっくりの見た目と声の超リアルなディープフェイクを、リアルな雰囲気で作ってくれた。かつてのAIアバターの不自然さとは大違いだ。最終的な結果は、度肝を抜くものだった。私のことをよく知らない人を、簡単に騙すことができた。

シンセシアは、最新世代の生成AIをわずか1年研究しただけで、驚くほど人間に近いAIアバターを作り出すことに成功した。このテクノロジーの行く末を考えると、わくわくすると同時に気が滅入る。何が本物で、何がそうでないかを区別することは、すぐに非常に難しくなるだろう。今年、世界中で記録的な数の国政選挙が実施されることを考えると、これは特に深刻な脅威である。

私たちは、これから起こる出来事に対して準備ができていない。もし人々が目にするコンテンツに懐疑的になりすぎれば、何も信じなくなってしまうかもしれない。そうなれば、悪人たちは信頼性のなさを利用して、本物のコンテンツの信憑性について嘘をつけるようになる。研究者たちはこれを「嘘つきの配当」と呼んでいる。研究者たちは、例えば、政治家たちが本当に不利な情報は偽物であるとか、AIを使って作られたものであると主張する可能性があると警告している。

私はディープフェイクの作成体験と、何が本物かがますます分からなくなる世界についての大きな疑問について記事を発表したところだ。

もう1つ大きな問題がある。人工知能（AI）企業にデータを提供した後、私たちのデータはどうなるのだろうか？ シンセシアは、俳優や顧客から収集したデータを販売することはないというが、学術研究目的のために一部を公開することはある。シンセシアはアバターを3年間使用し、その時点で俳優や顧客は契約を更新するかどうか尋ねられる。更新する場合は、スタジオに来て新しいアバターを作る。更新しない場合、シンセシアはデータを削除する。

しかし、他の企業はデータをどのように扱うかという意思にそれほど透明性がない。本誌の特集・調査担当上級記者アイリーン・グオが昨年「ストライキ中のハリウッドで、メタがAI訓練データのために撮影時給150ドルで俳優雇う」で報告したように、メタのような企業は、俳優の顔や表情を含むデータを、企業が好きなように使えるようにライセンスしている。俳優には少額の前払い金が支払われるが、彼らの肖像は本人に知られることなく永続的にAIモデルの訓練に使用される。

データの契約に透明性があっても死後には適用されない、と話すのはウプサラ大学のカール・オーマン助教授だ。同助教授は、故人がネットに残したデータの研究をしており、新刊本『The Afterlife of Data（死後のデータの行方）』（2024年刊、未邦訳）の著者でもある。私たちがソーシャルメディア・プラットフォームやAIモデルにインプットしたデータは、私たちがこの世を去った後も企業に利益をもたらし、生き続けるかもしれない。

「フェイスブックは今後数十年のうちに、数十億人の亡くなった人のプロフィールをホストすると予測されています」とオーマン助教授は言う。「それらは実際には商業的に価値はありません。死んだ人々は広告をクリックしませんから。それでもサーバーの容量を消費します」と同助教授は付け加える。こうしたデータは、新しいAIモデルの訓練や、亡くなったユーザーの子孫についての推論に使用されるかもしれない。AIに関するデータと同意のモデル全体は、データ主体と企業の両方が永遠に生き続けることを前提としていると同助教授は話す。

私たちのデータは人気商品だ。 AIの言語モデルは、Webを無差別にスクレイピングすることで訓練され、その中には私たちの個人データも含まれる。およそ2年前、私はChatGPT（チャットGPT）の言語モデルの前身であるGPT-3が私について何か知っているかどうかテストした。苦労はしたが、MITテクノロジーレビューの編集長マット・ホーナンの個人情報を引き出すことができた。

次世代の強力なAIモデルを訓練するためには、高品質の人間が書いたデータが不可欠だが、ネットから無料で収集できる訓練データがなくなりかけている。そのため、AI企業は報道機関や出版社と契約を結び、その宝の山のようなデータにアクセスしようと競っている。

古いソーシャルメディア・サイトも金鉱になり得る。企業が倒産したり、プラットフォームが人気を失ったりすると、ユーザーのデータを含むその資産は最高額の入札者に売却されるとオーマン助教授は言う。

「マイスペース（MySpace）が事業に失敗して以降、マイスペースのデータは何度も売却されています。同じようなことがシンセシアやX（旧ツイッター）、ティックトック（TikTok）にも起こるかもしれません」とオーマン助教授は話す。

自分のデータがどうなろうとあまり気にしない人もいるだろう、とオーマン助教授は言う。しかし、質の高いデータへの独占的なアクセスを確保することは、大企業の独占的な地位を強固にすることを後押しし、それは私たち全員に害を及ぼす。これは社会として取り組まなければならないことだ、と同助教授は付け加える。

シンセシアは私が実験した後、私のアバターを削除すると言ったが、この経験全体を通じて、フェイスブックや他のソーシャルメディア・プラットフォームで自分につきまとう、うんざりするような写真や投稿の数々について考えさせられた。今こそ一掃する時だと思う。

チャットボット向け「うそ発見器」が登場

大規模言語モデルは、っち上げの能力で有名だ。実際、それがいちばんの得意技である。大規模言語モデル自体に事実とフィクションを区別する能力はないため、リスクを負ってまで利用する価値があるだろうかと迷っている企業は多い。マサチューセッツ工科大学（MIT）の量子コンピューティング研究室からスピンアウトした人工知能（AI）スタートアップ企業、クリーンラボ（Cleanlab）が開発した新ツールは、大規模言語モデルの現実の信頼性のレベルを、できるだけ明確に把握できるように設計されている。

これは「トラストワージー・ランゲージモデル（Trustworthy Language Model：信頼できる言語モデル）」と呼ばれ、大規模言語モデルが生成した出力に対して、その内容の信頼性の高低に応じて0から1までのスコアを出してくれる。ユーザーはこの数値を見て、信じていい回答と捨てるべき回答を選択できる。このツールを使うことで、捏造ぶりを懸念する企業も大規模言語モデルの活用を検討するようになってほしい、とクリーンラボは期待している。

AI担当上級編集者ウィル・ダグラス・ヘブンによる記事本編はこちら。

AI関連のその他のニュース

イスラエル、ウクライナ、台湾への米国援助の中心にいる防衛テック。ジョー・バイデン大統領は4月末、950億ドルの支援パッケージに署名した。この法案は、ウクライナとイスラエルに大量の物資を送る一方で、台湾には対中防衛のための潜水艦テクノロジーも提供する。（MITテクノロジーレビュー）

リシ・スナクはAIを安全にすると約束したが、巨大テック企業は協力していない。英国の首相は、AIの巨大企業に英国の新しいAI安全研究所（AI Safety Institute）による自主的な安全性テストに同意させ、政治的勝利を手にしたと考えていた。6カ月が経過した今、指切りげんまんではうまくいかないことが判明した。オープンAI（OpenAI）とメタは、自社のモデルのリリース前の安全性テストのために、AI安全研究所に対しアクセス権を認めていない。（ポリティコ）

AIのキラー・アプリを探す競争の内幕。AIの誇大広告バブルは、このテクノロジーを開発・運用するための目が飛び出るほど高価なプロセスから利益を上げる方法を企業が見つけようとする中で、萎み始めている。テック企業は、生成モデルが常に物事をでっち上げることなど、AIの普及を遅らせている根本的ないくつかの問題を解決していない。（ワシントン・ポスト）

新しいデータ・センターを求めるAI業界の欲求が満たされない理由。現在のデータを大量に消費するAIブームは、データ・センターを建設するための部品、土地、電力が不足していることを意味する。（ウォール・ストリート・ジャーナル）

巨大テック企業のAI競争でライバルになった友人たち。AI界で最も有名な、そして最も険悪な関係の1つを魅力的に描き出している。デミス・ハサビスとムスタファ・スレイマンは、ロンドンで育ち、AIを研究するディープマインド（DeepMind）を共同設立した旧友だ。スレイマンはいじめスキャンダルで更迭され、スタートアップを立ち上げたが短命に終わり、現在はライバルのマイクロソフトのAI部門を率いている。一方でハサビスは現在もグーグルで中心的にAIを研究するディープマインドを運営している。（ニューヨーク・タイムズ）

クリーミーなヴィーガン・チーズはAIで作られた。いくつかのスタートアップは、AIを使って植物由来の食品をデザインしている。これらの企業は、風味、香り、伸縮性といった望ましい特徴を持つ食材のデータセットでアルゴリズムを訓練する。そして、AIを使って膨大なデータを調べ、同じような機能を持つ成分の新しい組み合わせを開発する。（MITテクノロジーレビュー）

【この記事をMITテクノロジーレビューで読む】

ツイートする

カテゴリートップへ

ASCII倶楽部