10月16日(現地時間)、OpenAIの元研究幹部によって設立されたAnthropicのAIチャットボット「Claude」が日本で利用可能になったことにより、OpenAIの「ChatGPT」「ChatGPT Plus」、グーグルの「Bard」、Microsoftの「Bingチャット」に加え、日本で利用できるAIチャットボットの選択肢がさらに拡大した。
価格 | 言語モデル | 外部アクセス | 画像入力 | 画像出力 | 音声入出力 | TEX、PDF等のファイル入力 | |
---|---|---|---|---|---|---|---|
ChatGPT | 無料 | GPT-3.5 | ✕ | ✕ | ✕ | ◯(スマホのみ) | ✕ |
ChatGPT Plus | 20USD | GPT-3.5/GPT-4 | ◯ | ◯ | ◯ | ◯(スマホのみ) | ◯(Advanced Data Analysis使用) |
Bingチャット | 無料 | GPT-3.5/GPT-4 | ◯ | ◯ | ◯ | ◯ | ✕ |
Bard | 無料 | LaMDA/PaLM 2 | ✕ | ◯ | ✕ | ✕ | ✕ |
Claude | 無料/20USD | Claude 2 | ◯ | ✕ | ✕ | ✕ | ◯(PDF、CSVなど) |
それぞれできることは微妙に異なるが、今回は基本となるテキストによるプロンプトに絞り、同じ質問に対する回答を比較・採点することで、各サービスの特徴を見ていきたい。
採点ルール
比較対象は4サービス。「Bingチャット」に関しては「ChatGPT(Plus)」と同じ大規模言語モデルを利用しているため対象外として、「ChatGPT」「ChatGPT Plus」「Bard」「Claude」を比較することにした。
プロンプトは内容によって「要約」「作文」「翻訳」「存在しないものへの対応(ハルシネーション)」「計算(掛け算、因数分解、平方根)」「画像生成AI(Stable Diffusion)のプロンプトを作成」「コーディング」「倫理」の10部門に分け、それぞれ複数の質問を投げかけた上で総合的に採点していった。
採点は「クオリティが高い(10点)」「普通(6点)」「クオリティが低い(3点)」「頻繁に間違える(0点)」の4段階評価とするが、定量的なものではなく、あくまでも筆者の主観を元にした印象評価だということは強調しておく。
要約
大規模言語モデルの得意技のひとつが、長い文章の要点を抜き取って短い文章にまとめる「要約」だ。単に文字数を減らすだけではなく、短時間でその文章の「キモ」の部分を理解できるような簡潔かつ明快な文章が理想だ。
テストの一部では、ASCII.jpに掲載されたClaudeの記事のテキスト部分(717文字)を要約させた。
●解答例
●評価
・ChatGPT:350字と半分程度になった。過不足ない要約。
・ChatGPT Plus:424字。ChatGPTより少し多いが読みやすい。
・Bard:617字と少し多いが、短い要約に続いてポイントが箇条書きになっておりわかりやすい。
・Claude:212字とダントツの少なさ。こちらも箇条書き形式でこの中ではベストか。
●採点
ChatGPT | ChatGPT Plus | Bard | Claude |
---|---|---|---|
6 | 6 | 6 | 10 |