10月30日に開催されたウイングアーク1stのイベント「UpdataNOW24」でひときわ異彩を放っていたのが、感性×AIを扱った「生成AI時代のアカデミア最先端からビジネス実装と未来」のセッション。オノマトペのような表現をAIの世界に落とし込んできたアカデミアの第一人者と、ビジネスソフトウェア企業のCTOがAIにおける「ふわふわ」や「さらさら」を語り合う、ユニークな内容となった。
研究者でもあり、起業家でもあり、YouTuberでもある
今回のセッションは、ウイングアーク1stのCTOである島澤甲氏と、国立大学法人 電気通信大学 副学長 情報理工学研究科教授 坂本 真樹氏とのクロストーク。登壇した島澤氏は、参加者の質問を受付けるクローズドな投稿サイトを案内したあと、さっそく坂本氏による自己紹介に移る。
坂本氏は、「人間が言語を話す仕組みって不思議だな」というモチベーションから東京大学大学院の言語情報科学専攻で博士号を取得。その後、東京大学助手、電気通信大学講師、准教授を経て、2015年より電気通信大学大学院 情報理工学研究科教授。2020年より電気通信大学の副学長となり、国立大学初の人工知能先端研究センター 副センター長のほか、人工科学学会理事や日本学術会議連携委員などさまざまな学術的な活動を行なってきた。
こうした活動の課程でさまざまな特許を取得したり、ソフトウェア開発をしてきたこともあり、坂本氏は、これらを産業応用すべく、2018年に京王電鉄とともに感性AIを創業。また、2024年にはソフトバンクの社外取締役にも就任している。オスカープロモーションに所属したタレントという一面もあり、情報番組やバラエティ番組にも出演。著書も多く、数式ほとんどなしで人工知能がわかるという「坂本真樹先生が教える人工知能がほぼほぼわかる本」は一部が国語の教科書に引用されている。
とにかくすごい活動量。しかも、多くの実績を残している坂本氏。だが、これですべてではない。2021年から「AI作詞家YouTuber『fuwari』」を始めている。つまりYouTuberでもあるのだ。「生成AIがまだなかった頃からAIで作詞をして、アイドルに歌ってもらっていたのですが、単発の企画だったので、これは継続しないとダメだろうということで、第六弾シングルまで出して、80本くらいの動画を作りました。でも、チャンネル登録者数は500人にも満たない(笑)」(坂本氏)ということで、会場にチャンネル登録のためのQRコードを披露する。
そんな自虐ネタを披露しつつ、「楽しいからいいか!」とあっけらかんな坂本氏。この行動力こそ、われわれがまさに学ぶべきものだろう。YouTubeの動画はやってみた系のほか、AIを学べる真面目な内容もある。実際に会場に披露されたが、難しいAIの歴史をわかりやすく解説してくれて、とてもよいコンテンツだった。そしてここで取り扱っているのが、坂本氏のライフワークでもある「感性AI」という領域だ。
島澤氏も「fuwariチャンネル、ほぼ全部見ました。私も技術屋ですが、このAI講座は復習にもなるし、感性という第二次AIブームでは取り扱えなかった概念が今でも取り扱えるようになり、生成AI時代のメリットも感じられる。ぜひチャンネル登録とグッドボタンをお願いします(笑)」とアピール。その後、会場からのコメントでもチャンネル登録は10件増えて525となり、公約のライブ配信を行なうことになったという。
正解か、不正解かの認識とは異なる感性AIの世界
そんなイントロから本題の感性AIにトピックが移る。2012年頃にディープラーニングがブームになった頃は、「犬は犬として認識する、猫は猫として認識する」といった、正解か、不正解かを認識するのが目的だった。ただ、ここでは多様性は考慮されなかった。「たとえば犬を見て、『もふもふでかわいい』とか、『けばけばしてむせそう』という個人の主観は扱われなかった」と坂本氏は指摘する。
そして現在は生成AIの時代になったが、課題は山積している。特に感性の領域での課題は、「ChatGPTは人との対話と違う」という点が挙げられるという。人間の対話は単に言葉を交わしているだけではなく、五感でセンシングしながら、思考し、発話することで成立している。しかし、サイバー空間上のChatGPTはこのセンシングを持ち得ない。「ChatGPTはこの会場の温かい空気感がわからない」と坂本氏は指摘する。
実際、この会場の参加者が楽しんでいるかを聞いても、ChatGPTは判断できない。坂本氏が「これはけっこう重要な人間との違いなんですよね」(坂本氏)と語ると、島澤氏は「ハルシネーションを起こさないため、こういう回答をしてくるのは違和感ないですが、坂本先生はChatGPTに『もふもふ』をわかるように試行しているわけですよね」とコメントする。
サイバー空間とフィジカル空間をつなぐ方法は、IoTのようなデバイスで試作されている。「こうすると、いろいろなモノに対話能力を持たすことも可能になる。家でも、電車でも、カバンでも、ネットにつながるタグを付けてあげれば、しゃべりだすことが可能だが、なんでもしゃべらせればいい訳ではない。どんなモノに対話能力を持たせ、なにをさせれば、どんなビジネスができるかを考えるのが人間力だと思っている」と坂本氏は語る。
「ふわふわ」「もふもふ」 生成AIもオノマトペを理解しつつある
感性をAIに取り込む試作として、生成AI以前の2017年頃に坂本氏が手がけたのは、会話の空気を読む空間の開発。「普通に会話をしてもらうと、空間がスマート化されていて、ストレスを緩和し、知的生産性が上がるように、AIが空間を制御してくれないかなと考えた」と坂本氏は説明した。
具体的にはディープラーニングの二層目に会話、生体情報、空間情報をインプットし、ストレスの緩和を目標値に、学習させたという。ストレスを感知すると、空調が動き出したり、IoTのディフューザーが香りを発したり、プロジェクターで映像が流れたり、音楽が流れたりするという。「香りまで制御するということは、場の空気が悪いなあと思ったら、キンモクセイの香りがするみたいなことができるわけですね」と島澤氏も感心。実際に感性AIを共同開発していた京王電鉄のオフィスで体験できるという。
同じく注力しているのが、ものづくりの分野。「日本はものづくりの国。職人も、お客さまも感受性が豊か。食べ物も微細で感性豊かな味付けのものが多い」とのことで、10年に渡るプロジェクトで、モノから物性を取得し、質感をオノマトペで表現するためのデータベースを構築してきたという。
生成AIもオノマトペを理解しつつある。ChatGPTも最初のバージョンはオノマトペを理解していなかったが、今では「ふわふわ」や「もふもふ」も理解する。「(画像生成で)『もっともふもふさせて』というと、毛玉もふもふさせてくるんです。これ私の領域じゃんと思ったら、なんかやってくれちゃって」(坂本氏)。ただし、現時点ではChatGPTのみが理解しているようで、「つるつる」と言うと、他は「草のつるがいっぱい出てくる」という。