「世の中のあらゆる事象をAIで読み解き、顧客企業における新たな価値創出を支援」

EY、“人間の認知能力を超える”マルチモーダルAI活用のコンサルサービス

2024年03月21日 07時00分更新

文● 大塚昭彦／TECH.ASCII.jp

　総合コンサルティングファームのEY Japanは2024年3月18日、新たなコンサルティングサービス「マルチモーダルAIを活用した新規価値創出支援サービス」を4月1日から提供開始することを発表した。

　テキスト（自然言語）、画像／映像、音声など、複数種の情報を1つの認知空間に統合したうえで処理（推論）を行うマルチモーダルAIを活用することで、現実世界で起きている事象のより包括的かつ高精度な把握を可能にし、幅広い事業領域における新たなビジネス価値創出につなげる支援を行うという。PoCなど技術面での支援ができることも特徴とする。

　記者発表会にはEY ストラテジー・アンド・コンサルティング（EYSC）テクノロジーコンサルティング統括パートナーの新坂上治氏と、同社テクノロジーコンサルティングの山本直人氏が出席し、マルチモーダルAIの「多様な視点で世の中を読み取く力」を生かすことで、単なる既存業務の効率化の域を超えた、新規価値創出を目指すと強調した。

「マルチモーダルAIを活用した新規価値創出支援サービス」の概要

EY ストラテジー・アンド・コンサルティングテクノロジーコンサルティングの山本直人氏

マルチモーダルAIを通じた「新規価値創出」を技術／ビジネスの両面で支援

　今回のコンサルティングサービスは、生成AI技術を活用することで、クライアント企業における「新価値創出にかかわる仕組みづくり」全体を支援するものだ。従来のシングルモーダルAIやデータ分析、あるいは人間だけでは実現が難しい、「現実に起きていること（事象）」の多角的な視点からの分析と洞察（読み解き）をマルチモーダルAIで実現する。加えて、事業アイデアの創出だけにとどまらず事業の実現や拡大まで、テクノロジー、経営戦略、M&A戦略など、多様なEYのプロフェッショナルが伴走してサポートするという。

　具体的な適用領域とユースケースとしては、「人間の思考や体験欲求を高精度に把握したうえでの事業開発、大規模施設の空間設計、プロダクト設計、マーケティング高度化」や「製造業における暗黙知の形式知化、モノづくりの高度化」を例として挙げている。

新サービス提供の背景と目指すゴール

プロジェクトの進行イメージ。目標によってかかる期間はさまざまだが、「不確実性の高い要素に対する取り組みになるため、3～6カ月程度の短いスパンで成果を評価しながら進める形を想定している」（EY 山本氏）という

マルチモーダルAIの特徴は「人間のように物事を“概念化”できること」

　EYが提供する同サービスの特徴を理解するためには、マルチモーダルAIとは何か、現在主流のAI（シングルモーダルAI）とはどう違うのかを知る必要がある。山本氏はまずこの点から説明を始めた。

　シングルモーダルAIは、たとえばテキスト（自然言語）、画像／映像、音声といった単一種の情報から推論処理を行う。一方でマルチモーダルAIは、これら複数種の情報を1つの統合的な認知空間に取り込み、それに基づいて推論処理を行うことができる。こうした特徴から、マルチモーダルAIは「五感で情報をインプットし、頭の中にある知識で判断する人間の認知モデルを模した形の仕組みだと言えるのではないか」と山本氏は語る。

　具体的な例として、山本氏はOpen AIの研究論文で公開されているバナナ画像の認識テストの結果を紹介した。

　シングルモーダルAI（CNN：畳み込みニューラルネットワーク）の場合、学習に用いたバナナ画像やそれに似た画像ならば高い精度で認識できるが、イラスト化した抽象的なバナナや手描きスケッチのバナナ、ノイズが混入したバナナ画像になると、認識精度が大きく下がってしまう。一方でマルチモーダルAIは、そうした画像であっても高い認識精度を維持できる。

　「少し乱暴な言い方をすれば、シングルモーダルAIはバナナの局所的な特徴を“丸暗記”しているようなモデル。暗記したもの（バナナ画像）に近ければ答えられるが、応用が利かないので、遠く離れたものについてはうまく判別できない。一方で、マルチモーダルAIのすごさは、処理の中で“物事の概念化”を行っていること」「バナナの“概念”を、たとえば『曲がったブーメラン状のもの』のようにテキスト情報として形成しているので、手描きスケッチであってもバナナだと認識できる」（山本氏）

　山本氏は、人間も画像／映像とその説明（テキスト）を一緒に学習することを通じて物事の概念を形成していくものであり、「マルチモーダルAIは人間と近しい形で学習をして、より“解像度の高い”理解を得ている」と表現する。

「シングルモーダルAI」「マルチモーダルAI」の基本的な違い

山本氏はOpen AIの研究論文を引用するかたちで、マルチモーダルAIの強みとその背景を説明した

人間の認知能力の“弱点”を超えて、マルチモーダルAIの強みを生かす

　さらにマルチモーダルAIは、人間の認知能力と比較した場合でも優位性を持つものと、EYでは考えているという。

　人間の認知能力には限界があり、目の前で起きている事象のすべてを一度に、詳しくとらえることはできない。さらには、もともと持っている固定観念や専門性、これまでの経験などによってバイアス（偏った見方）も生じる。

　山本氏はその一例として、工場内で荷物を抱えて歩いてきた作業員が、足を滑らせて激しく転倒する動画を見せた。おそらくこの動画を見たほとんどの人間は、「作業員が滑って転ぶ」点に目を奪われてしまう。しかし、たとえば「床に水たまりがある」「パレットが乱雑に積まれている」など、この動画にはほかにもさまざまな情報が映り込んでおり、マルチモーダルAIならばそうした情報も同時に認知できる。つまり、より多角的かつ詳細に「動画の中で何が起きているのか」を抽出できるわけだ。

　別の例として山本氏は、ライブ会場で多数の観客（群衆）が映っている動画も見せた。ここでは、動画の中心で目立っている観客のふるまいだけでなく、周囲や背後にいる観客一人ひとりの細かなふるまいや感情を一度に分析できると述べて、マルチモーダルAIの優位性を紹介した。

EYが着目するマルチモーダルAIの特徴は、「目の前で起きていることを多角的かつ詳細にとらえることができる」こと

マルチモーダルAI（テキスト＋画像／映像）によって、映像を高度に「解釈」することが可能になる。さらに人間とは違い、映像に映るすべての事象を“総当たり”アプローチで解釈することが可能だ

　ユースケースの一例として山本氏は、映像から抽出したあらゆる情報（行動や感情）をテキスト（自然言語）化し、それらの情報を相互にひも付けた大量のログを蓄積することで、そこからパターン化された人間像＝“ペルソナ”を生成できると語った。このペルソナを使って、個々人の価値観が多様化している時代に「人間の体験欲求（“コトの欲求”）」を解像度高く読み解くことが可能になれば、「マーケットにおける大きなゲームチェンジが起きるのではないか」と述べる。

　「従来のマーケティング手法、3C分析の中では、「C」のひとつであるカスタマーの欲求を理解するために、グループ（モニター）インタビューやアンケートが行われてきた。しかしこうした手法だけでは、なかなかカスタマーの欲求を適切に（高解像度に）とらえることはできなかった。今回のような（“世の中で起きていることすべてを分析する”ような）やり方で人の思考を高度に把握することができれば、マーケティングのあり方に大きな変化があるのではないかと考えている」（山本氏）

　なお、こうした取り組みを進めるうえでは、カメラに映る個人のプライバシー問題に直面することが想定される。山本氏は、顧客企業と現在検討を進めているプロジェクトにおいては「カメラで撮られることが許容／承認されているような空間」、あるいは「カメラ撮影がスムーズなかたちで成り立っているような空間」を選択している、と説明した。

　山本氏はほかにも、ものづくりの現場における暗黙知をマルチモーダルAIによって形式知化することで、安全な作業手順のガイダンス、さらには非効率な作業や不具合を生じさせないためのデザイン開発などまでを支援できると紹介した。

AIの“人間を超越した”多角的／高解像度の視点は、ほかにもさまざまなユースケースが考えられるという

生成AIの「本質」に着目してコンサルティングサービスを展開

　EYでは、生成AIの表層的な機能ではなく「本質」に着目して、顧客企業における新たな価値創出を支援していく方針だ。

　山本氏は、現在はビジネスの世界で生成AIに大きな注目が集まっており「猫も杓子も生成AI」という状況である一方、実際の業務活用はチャットボットへの質問、メールの要約や翻訳といった「『テキストの生成AI』だけに閉じたものになっている」と指摘する。

　「（テキストの生成AIは）人々の作業の効率化に大きな役割を果たしているとは思うが、それはやはり効率化でしかない。われわれ（EY）が追求するのは新しい価値の創出であるため、少し違った視点で見る必要がある。世の中では『ChatGPT』をいかに使いこなすか、といった機能目線に終始している部分があるが、われわれは（生成AIは）間違いなくイノベーティブなものだと考えており、お客様のイノベーティブな事業づくりに結びつけることができないかというのが着眼点だ」（山本氏）

生成AIの「本質」に着目して今回のサービスを提供すると強調

　EYSC テクノロジーコンサルティング統括パートナーの新坂上治氏は、グローバルのEYにおける生成AIへの取り組み、今回のサービスの位置付けなどを説明した。

　EYグローバルでは7万人以上のテクノロジープロフェッショナルが在籍しているが、現在はAIの活用で「クライアントの変革」「EY自身の変革」「世界の変革」を実現するべく、生成AI関連で14億ドル（2100億円超）の投資計画を立てているという。

　日本のEYSCでは、テクノロジーコンサルティングで6領域のチームを有しているが、今回発表のコンサルティングサービスは、従来のITコンサルティングには収まらない領域をカバーする「Digital Innovation（AI&Data）」チームが担当する。新坂上氏は4象限の図を示しながら、次のように説明した。

　「今までのEYは、どちらかというと『ビジネス革新の支援・従来のIT課題解決』を中心に大きくなってきたが、現在はグローバルのEYでもこの縦軸の上のほう、『新たな価値創出・デジタル社会実現』に注力している。特に日本は人口が大きく減少しており、新たな価値を創出しなければグローバルの中で生き残っていけない。また、デジタル社会の実現は国としても、われわれのクライアントとしても重要な課題だ。したがって、この図の上、特に右上の領域に力を入れていきたいと考えている」（新坂上氏）