中国製AIはハルシネーションレートですでに世界一

2024年09月14日 18時00分更新

文● 大谷イビサ　編集●ASCII

2024年9月13日付けのHallucination Leaderboard

　AIがあたかも本当のように事実と異なることを言ってしまうハルシネーション（幻覚）。どのくらい幻覚を見るかを示すハルシネーションレートは、各社がしのぎを削る大規模言語モデル（LLM）の精度の高さを証明する1つの指標となっている。

　さて、各LLMのハルシネーションレートを比較すべくAI企業Vectaraが開発したGitHub上のHallucination Leaderboardを見ると、現在（2024年9月13日付け）は中国版ChatGPTとも言われる「智譜AI（Zhipu AI）」のGLM-4-9B-Chatが1.3％でもっともハルシネーションレートが低い。出たばかりのOpenAI o1 miniの1.4％、GPT-4oの1.5％を抑えての1位は正直すごい（冒頭のグラフ参照のこと）。

　そういえば先日、コープさっぽろCIOの長谷川秀樹氏が「ハルシネーションがある限り、企業では生成AIは使えないというCIOが多くて驚いた」とOpenAIイベントでの感想をSNSでコメント。確かに、この先も日本企業はハルシネーションレート0％まで求め続けるのだろうか？　長谷川氏も同じ投稿で「人間オペレーションの方が、ハルシネーション多くね?www」とコメントしていたけど、まさにそうだなと。明らかにハルシネーションみたいな発言をする人ってどこにでもいますよね。

文：大谷イビサ

ASCII.jpのクラウド・IT担当で、TECH.ASCII.jpの編集長。「インターネットASCII」や「アスキーNT」「NETWORK magazine」などの編集を担当し、2011年から現職。「ITだってエンタテインメント」をキーワードに、楽しく、ユーザー目線に立った情報発信を心がけている。2017年からは「ASCII TeamLeaders」を立ち上げ、SaaSの活用と働き方の理想像を追い続けている。

ツイートする

カテゴリートップへ

中国製AIはハルシネーションレートですでに世界一

この連載の記事

この記事の編集者は以下の記事をオススメしています

ITトピック 米の銘柄をAIで判定する「RiceTag」 検査員の精度を実現する試行錯誤とは？

TECH 生成AIに感謝を伝えると回答精度が向上する？ GaiXerで検証した

クラウド 富士通、“OpenAIのライバル”Cohereと日本語強化LLM「Takane」を共同開発

クラウド 大阪市、Amazon Kendraを用いて生成AIのハルシネーション対策を検証

ITトピック 今後は「マルチモーダル生成AI」に注目、インボイス制度導入と処理時間増加の実態、ほか

クラウド 火中の栗「DeepSeek」を拾うマイクロソフトの脊髄反射がすごい

Team Leaders AIは時々、もっともらしいウソをつく ハルシネーションを見破りファクトチェックする4つの方法

ビジネス 自宅に亀裂も、衛星データで永久凍土解析／中国発AIエージェント「Manus」開発者の素顔

AIオススメ記事

ピックアップ

ITトピック
米の銘柄をAIで判定する「RiceTag」　検査員の精度を実現する試行錯誤とは？

TECH
生成AIに感謝を伝えると回答精度が向上する？ GaiXerで検証した

クラウド
富士通、“OpenAIのライバル”Cohereと日本語強化LLM「Takane」を共同開発

クラウド
大阪市、Amazon Kendraを用いて生成AIのハルシネーション対策を検証

ITトピック
今後は「マルチモーダル生成AI」に注目、インボイス制度導入と処理時間増加の実態、ほか

クラウド
火中の栗「DeepSeek」を拾うマイクロソフトの脊髄反射がすごい

Team Leaders
AIは時々、もっともらしいウソをつく　ハルシネーションを見破りファクトチェックする4つの方法

ビジネス
自宅に亀裂も、衛星データで永久凍土解析／中国発AIエージェント「Manus」開発者の素顔