このページの本文へ

田口和裕の「ChatGPTの使い方!」 第21回

ChatGPTのライバル「Claude 3」の使い方 良い点、悪い点まとめ

2024年03月22日 10時00分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

画像の内容を理解するビジョンモデル

 Claude 3はGPT-4V同様、画像をアップロードして、その内容を分析することができる。

 対応フォーマットは「JPEG」「PNG」「GIF」「WebP」だ。なお、ChatGPTはこれに加え「bmp」「tiff」にも対応している。

 最大画像ファイルサイズは10MB(API経由の場合5MB)、1度のリクエストで最大5個(API経由の場合20個)の画像をアップロードすることができる。

 ただし、「https://ascii.jp/◯◯◯.png」のように画像のURLを書いただけでは読み取ることができないので、必ず実ファイルをアップロードすることが必要となる。

 また、「長い方の辺が1568ピクセル」を超えるファイルは自動的に縮小されるため、大きすぎる画像は上記の表を参考にリサイズしてからアップロードしよう。

 なお、不適切なコンテンツや実在の人物・キャラクターなどについては識別することを拒否することがある。これはGPT-4Vも同様だ。

 それでは写真をアップロードして解説してもらおう。写真の内容を正確に捉えていることがわかる。

 同じ写真でChatGPT(GPT-4)でも質問してみたが、こちらも内容は問題なく甲乙つけがたい。

タイ文字読み取り能力が高いのは?

 筆者はタイ在住なのだが、あまりタイ語が得意ではないので翻訳系のアプリは必須だ。特にカメラを向けるだけでタイ語が日本語にAR変換される「Googleレンズ」を数年前から愛用している。

 ChatGPTやClaude 3は画像内のテキストを読み取ることができるが、英語よりもマイナーなタイ文字を読むことはできるだろうか?

 最初の課題は、ホームセンターで見かけた出張サービスのポスター。その場で詳しい内容がいまいちわからなかったため、スマートフォンのカメラで撮影し、Claude 3とChatGPTに読んでもらうことにする。

Claude 3

プロンプト:このポスターの内容を教えて下さい

 こちらがClaude 3の回答。最後の結論を含めだいたい正解だとは思うが、「最低価格3000バーツ保証」だけ明らかに間違っている。これは「通常3000バーツのところ1000バーツ」が正解だろう。

ChatGPT

 そしてこちらがChatGPTの回答。「元の価格は3,000バーツであることが示されています。」とあるようにClaude 3が間違えた箇所を正解している。

 そのかわり「年号が67とあり、西暦でいつを指しているかは不明です」となっている。実は67は仏暦2567年(西暦2024年)を意味しており、タイでは西暦も使うが仏暦を使うのが普通なのだ。

 とは言え、Claude 3は日付については一切触れていないのだが、、

Googleレンズ

 こちらがGoogleレンズを使って同じポスターを見たところ。おかしな日本語にはなっているが、意味的にはこれがいちばん正解に近い。

 続けてもう1枚。こちらはタイのイミグレーションオフィスに貼ってあったポスターだ。

Claude 3

 Claude 3の回答は「タイ移民局が実施する外国人の在留資格延長サービスに関する告知ポスター」だ。

 「(仏暦)67」を2023年とするなど西暦に直せていない、いちばん大きな「330」という数字の説明がないなど、少し不満が残る結果だ。

ChatGPT

 ChatGPTの回答は「この画像はタイ王国警察、移民局(Immigration Bureau)の募集広告で、特定の条件を満たす330名の新規採用を告知しているものです」となっており、Claude 3とまったく違う内容になっているが、恐らくこちらが正解であろう。

Googleレンズ

 こちらがGoogleレンズの結果。ことタイ語のような比較的マイナーな言語はClaude 3もChatGPTもまだまだ苦手なようで、今後もしばらくはGoogleレンズのお世話になりそうだ。

カテゴリートップへ

この連載の記事
ピックアップ