Bing AIがマルチモーダルに対応し、画像のアップロードに対応した。画像に何が写っているのか認識し、プロンプトに答えてくれるのだ。まずは、犬の写真をアップロードして、何が写っているのか聞いてみよう。
「黒柴犬の顔のクローズアップ」で「目を開いている」「背景がぼやけている」としっかりと描写してくれた。鼻は黒く、耳がとがっており、敷物の色まで判別している。人間が説明するよりも完ぺきな描写と言っていいだろう。
次に、ウイスキーの写真をアップロードして聞いたところ、ぴたりと銘柄を判別し解説してくれた。ラベルを認識しているのだが、文字は小さいし、ロゴになっているのに驚きだ。
解説の最後には、「広告」として、お酒のネットショップへのリンクが表示されている。確かに、Bing AIとのチャット内容に関連する広告ならコンバージョンが高くなることだろう。ユーザーとしては煩わしいが、無料で使えるのだから仕方がない。
YouTubeのBing公式チャンネルでビジュアルサーチについての動画(Visual Search in Bing Chat - Desktop experience)公開されていた。この中で、手書きしたウェブページのラフを撮影し、Bing AIにアップロードして、HTMLとCSSでコーディングするデモが表示されていた。
早速真似していろいろとやってみたのだが、日本語では途中で止まったり、コーディングはできませんと言われたり、うまくいかなかった。そのため、動画の内容を真似て、同じプロンプトで試してみた。
プロジェクトマネジメントの登録フォームで、アサインする人と重要度、説明などを入力するものだ。プロンプトは映像通り「Generate HTML code based on this image. Use css to make it look cool. Projects can be assigned to AAA,BBB,CCC. Priority can be high, medium, low.」とした。
最終的にコードは出力できたが、随分デモとは異なる結果となった。「Project Management」のタイトルは表示されず、アサインするところのメニューは動作せず、デザインもクールではない。
とはいえ「Priority」のプルダウンメニューは動作しており、指定した選択肢が入っていた。「Submit」と「Clear」のボタンもある。プログラミングできない筆者ではここからどう改善すればいいのかわからないが、プログラマーであれば時短ツールとして活用できそうだ。
さまざまな画像をアップロードして試してみたが、まだまだ万能ではない。刺身と言うことはわかっても何の刺身かは判別できないし、風景から場所を特定したりすることはできない。しかし、マルチモーダルの未来を体感することはできる。スマホアプリからも利用できるので、外出先で写真を撮り、質問することも可能だ。まずは、気軽に手近な写真をアップし、「何が写っている?」と聞いてみよう。

この連載の記事
-
第41回
PC
簡単!「Windowsバックアップ」の基本ガイド -
第40回
PC
フリーソフト不要! Windows 11で解凍やZip圧縮が便利! -
第39回
PC
Windows 11「エクスプローラー」が進化! 新UIで効率アップする方法 -
第38回
PC
Windows 11のタスクバーを使いやすいようにカスタマイズする方法 -
第37回
PC
Windows 11「Snipping Tool」ウェブのテキスト認識が可能に! -
第36回
PC
自然言語でWindows 11を操作できるAI「Copilot in Windows」が使えるようになった -
第35回
PC
Windows 11「フォト」アプリの進化が止まらない! 写真を一括管理&画像編集まで -
第34回
PC
Windows 11の標準機能で子供のPC利用を見守る「Family」アプリ -
第33回
PC
Windows 11ユーザー必見! オススメ「フリーソフト」10選 -
第32回
PC
誤爆卒業! Edge「ワークスペース」で楽々プライベートと仕事環境を切り替え -
第31回
PC
Windows 11「パスワードなし」でセキュアに利用する方法 - この連載の一覧へ