画像の内容を理解するビジョンモデル
Claude 3はGPT-4V同様、画像をアップロードして、その内容を分析することができる。
対応フォーマットは「JPEG」「PNG」「GIF」「WebP」だ。なお、ChatGPTはこれに加え「bmp」「tiff」にも対応している。
最大画像ファイルサイズは10MB(API経由の場合5MB)、1度のリクエストで最大5個(API経由の場合20個)の画像をアップロードすることができる。
ただし、「https://ascii.jp/◯◯◯.png」のように画像のURLを書いただけでは読み取ることができないので、必ず実ファイルをアップロードすることが必要となる。
また、「長い方の辺が1568ピクセル」を超えるファイルは自動的に縮小されるため、大きすぎる画像は上記の表を参考にリサイズしてからアップロードしよう。
なお、不適切なコンテンツや実在の人物・キャラクターなどについては識別することを拒否することがある。これはGPT-4Vも同様だ。
それでは写真をアップロードして解説してもらおう。写真の内容を正確に捉えていることがわかる。
同じ写真でChatGPT(GPT-4)でも質問してみたが、こちらも内容は問題なく甲乙つけがたい。
タイ文字読み取り能力が高いのは?
筆者はタイ在住なのだが、あまりタイ語が得意ではないので翻訳系のアプリは必須だ。特にカメラを向けるだけでタイ語が日本語にAR変換される「Googleレンズ」を数年前から愛用している。
ChatGPTやClaude 3は画像内のテキストを読み取ることができるが、英語よりもマイナーなタイ文字を読むことはできるだろうか?
最初の課題は、ホームセンターで見かけた出張サービスのポスター。その場で詳しい内容がいまいちわからなかったため、スマートフォンのカメラで撮影し、Claude 3とChatGPTに読んでもらうことにする。
プロンプト:このポスターの内容を教えて下さい
こちらがClaude 3の回答。最後の結論を含めだいたい正解だとは思うが、「最低価格3000バーツ保証」だけ明らかに間違っている。これは「通常3000バーツのところ1000バーツ」が正解だろう。
そしてこちらがChatGPTの回答。「元の価格は3,000バーツであることが示されています。」とあるようにClaude 3が間違えた箇所を正解している。
そのかわり「年号が67とあり、西暦でいつを指しているかは不明です」となっている。実は67は仏暦2567年(西暦2024年)を意味しており、タイでは西暦も使うが仏暦を使うのが普通なのだ。
とは言え、Claude 3は日付については一切触れていないのだが、、
こちらがGoogleレンズを使って同じポスターを見たところ。おかしな日本語にはなっているが、意味的にはこれがいちばん正解に近い。
続けてもう1枚。こちらはタイのイミグレーションオフィスに貼ってあったポスターだ。
Claude 3の回答は「タイ移民局が実施する外国人の在留資格延長サービスに関する告知ポスター」だ。
「(仏暦)67」を2023年とするなど西暦に直せていない、いちばん大きな「330」という数字の説明がないなど、少し不満が残る結果だ。
ChatGPTの回答は「この画像はタイ王国警察、移民局(Immigration Bureau)の募集広告で、特定の条件を満たす330名の新規採用を告知しているものです」となっており、Claude 3とまったく違う内容になっているが、恐らくこちらが正解であろう。
こちらがGoogleレンズの結果。ことタイ語のような比較的マイナーな言語はClaude 3もChatGPTもまだまだ苦手なようで、今後もしばらくはGoogleレンズのお世話になりそうだ。

この連載の記事
-
第42回
AI
ChatGPT、Gemini、Claude、Grokの違いを徹底解説!仕事で役立つ最強の“AI使い分け術”【2025年12月最新版】 -
第41回
AI
中国の“オープンAI”攻撃でゆらぐ常識 1兆パラ級を超格安で開発した「Kimi K2」 の衝撃 -
第40回
AI
無料でここまでできる! AIブラウザー「ChatGPT Atlas」の使い方 -
第39回
AI
xAI「Grok」無料プラン徹底ガイド スマホ&PCの使い方まとめ -
第38回
AI
【無料】「NotebookLM」神機能“音声概要”をスマホで使おう! 難しい論文も長〜いYouTubeも、ポッドキャスト化して分かりやすく -
第37回
AI
OpenAIのローカルAIを無料で試す RTX 4070マシンは普通に動いたが、M1 Macは厳しかった… -
第36回
AI
無料で「Gemini 2.5 Pro」が使える!グーグル「Gemini CLI」の使い方を簡単解説 -
第35回
AI
【無料】グーグル神AIツール5選 「Google AI Studio」はこれがやばい -
第34回
AI
ローカルAI、スマホでサクッと動かせる グーグル「AI Edge Gallery」 -
第33回
AI
文章術としてのCursor入門 仕事で使うための実践編 -
第32回
AI
文章術としてのCursor入門 - この連載の一覧へ
















