オルツ、LLMにおけるハルシネーションをスコアリングする手法を開発
オルツは5月9日に、大規模言語モデル(LLM)におけるハルシネーションをスコアリングする手法の開発に成功したことを発表した。
ハルシネーションとは、LLMがまるで幻覚を見ているかのように、正当性がなく、事実に基づかない虚偽の回答をしてしまう現象。LLMが誤った情報を出力することは、企業や個人にとって深刻な信頼問題を引き起こす可能性があるだけでなく、LLMの今後の応用にも大きな障壁だという。
同社は今回、ハルシネーションを解決する方法の一つとして、ハルシネーションが発生するか否かを判定し、その発生確率(ハルシネーション・スコア)を自動的に評価できる手法を独自に発明し、「ハルシネーション自動評価エンジン」を開発。
本開発における実験では、ハルシネーション自動評価エンジンは、JcommonsenseQAデータセットから作成した擬似評価セットにおいて72%の正解率でハルシネーションの判定を実現。
同エンジンは、同社が独自に開発してきた軽量型大規模言語モデル「LHTM-OPT」だけではなく、GPT-3.5、Llama2など、様々なLLMのハルシネーションのスコアリングが可能になる。
また、同エンジンは、一貫性を重視してハルシネーションの評価を実施。具体的には、同じ入力データに基づいて複数の生成プロセスをし、これらの結果を比較。このアプローチにより、生成された内容における不一致や矛盾を特定し、それに基づいて学習データや事実に基づかない不正確な生成物が生じているかどうかを確率的に評価できるという。
なお、同エンジンは、同社の「alt developer」のAPIサービスを通じて提供開始した。