画像の内容を理解するビジョンモデル
Claude 3はGPT-4V同様、画像をアップロードして、その内容を分析することができる。
対応フォーマットは「JPEG」「PNG」「GIF」「WebP」だ。なお、ChatGPTはこれに加え「bmp」「tiff」にも対応している。
最大画像ファイルサイズは10MB(API経由の場合5MB)、1度のリクエストで最大5個(API経由の場合20個)の画像をアップロードすることができる。
ただし、「https://ascii.jp/◯◯◯.png」のように画像のURLを書いただけでは読み取ることができないので、必ず実ファイルをアップロードすることが必要となる。
また、「長い方の辺が1568ピクセル」を超えるファイルは自動的に縮小されるため、大きすぎる画像は上記の表を参考にリサイズしてからアップロードしよう。
なお、不適切なコンテンツや実在の人物・キャラクターなどについては識別することを拒否することがある。これはGPT-4Vも同様だ。
それでは写真をアップロードして解説してもらおう。写真の内容を正確に捉えていることがわかる。
同じ写真でChatGPT(GPT-4)でも質問してみたが、こちらも内容は問題なく甲乙つけがたい。
タイ文字読み取り能力が高いのは?
筆者はタイ在住なのだが、あまりタイ語が得意ではないので翻訳系のアプリは必須だ。特にカメラを向けるだけでタイ語が日本語にAR変換される「Googleレンズ」を数年前から愛用している。
ChatGPTやClaude 3は画像内のテキストを読み取ることができるが、英語よりもマイナーなタイ文字を読むことはできるだろうか?
最初の課題は、ホームセンターで見かけた出張サービスのポスター。その場で詳しい内容がいまいちわからなかったため、スマートフォンのカメラで撮影し、Claude 3とChatGPTに読んでもらうことにする。
プロンプト:このポスターの内容を教えて下さい
こちらがClaude 3の回答。最後の結論を含めだいたい正解だとは思うが、「最低価格3000バーツ保証」だけ明らかに間違っている。これは「通常3000バーツのところ1000バーツ」が正解だろう。
そしてこちらがChatGPTの回答。「元の価格は3,000バーツであることが示されています。」とあるようにClaude 3が間違えた箇所を正解している。
そのかわり「年号が67とあり、西暦でいつを指しているかは不明です」となっている。実は67は仏暦2567年(西暦2024年)を意味しており、タイでは西暦も使うが仏暦を使うのが普通なのだ。
とは言え、Claude 3は日付については一切触れていないのだが、、
こちらがGoogleレンズを使って同じポスターを見たところ。おかしな日本語にはなっているが、意味的にはこれがいちばん正解に近い。
続けてもう1枚。こちらはタイのイミグレーションオフィスに貼ってあったポスターだ。
Claude 3の回答は「タイ移民局が実施する外国人の在留資格延長サービスに関する告知ポスター」だ。
「(仏暦)67」を2023年とするなど西暦に直せていない、いちばん大きな「330」という数字の説明がないなど、少し不満が残る結果だ。
ChatGPTの回答は「この画像はタイ王国警察、移民局(Immigration Bureau)の募集広告で、特定の条件を満たす330名の新規採用を告知しているものです」となっており、Claude 3とまったく違う内容になっているが、恐らくこちらが正解であろう。
こちらがGoogleレンズの結果。ことタイ語のような比較的マイナーな言語はClaude 3もChatGPTもまだまだ苦手なようで、今後もしばらくはGoogleレンズのお世話になりそうだ。
この連載の記事
-
第28回
AI
あなたの作業を超効率化する、すごいAIサービス10選【2024年最新版】 -
第27回
AI
ChatGPT「canvas」使い方と、Claude「Artifacts」との違いを解説 文章作成やコーディングがスイスイできます -
第26回
AI
プレゼン資料が一発で出せると話題 AIツール「v0」の使い方 -
第25回
AI
チャットAI「Claude」すごい新機能「Artifacts」の使い方、全部教えます -
第24回
AI
めちゃ便利になった 無料版「ChatGPT」新機能の使い方まとめ【最新版】 -
第23回
AI
最新の生成AI使うなら「Perplexity Pro」がお得です -
第22回
AI
AI検索「Perplexity」がかなり便利だったので紹介します -
第20回
AI
「ExcelでChatGPTを再現するシート」が想像以上に素晴らしかった -
第19回
AI
ChatGPTで画像生成するならコレ! おすすめGPTs紹介 -
第18回
AI
ChatGPTおすすめGPT 科学的根拠に基づき質問に答える「Consensus」 - この連載の一覧へ