Weights & BiasesがVision-Languageモデル評価のためのHeron VLMリーダーボードを公開

2024.06.13 11:09

PR TIMES

Weights & Biases Japan
6月18日のW&B Japanミートアップに開発者が登壇

Weights & Biases Japan株式会社（以下、W&B Japan）は、本日、画像と言語を統合するVision-Languageモデル（以下、VLM）の評価のためのHeron VLMリーダーボードを公開しました。本リーダーボードではVLMの評価のために世界で広く使われているLLaVA Bench (In-the-Wild) と、Turing株式会社（以下、チューリング）が開発したJapanese Heron Benchの二つのベンチマークを組み合わせた総合評価となっており、W&B Japanはチューリングとの技術連携のもと、リーダーボードの構築と運営を行っています。本リーダーボードは http://vlm.nejumi.ai/ からアクセスでき、公開時に15を超えるVLMの比較が可能です。また本リーダーボードで使われている評価方法については、6月18日のW&B Japanミートアップにて解説します。

Heron VLMリーダーボード：http://vlm.nejumi.ai/

6月18日のW&B Japanミートアップ：https://wandb.connpass.com/event/319391/

Japanese Heron Bench: https://huggingface.co/datasets/turing-motors/Japanese-Heron-Bench

マルチモーダルなモデル評価の重要性
生成AIモデルの進化は様々な方向に向かっています。W&B Japanが運営しているNejumiリーダーボード（Nejumi.ai）では毎週のように公開される新しいLLMモデルが言語性能の記録を次々に更新しています。同時に一部のモデルにおいては、言語性能に加え画像の解釈及び生成能力の向上が進んでおり、様々な分野への応用が期待されています。例えば、Heron VLMリーダーボードの評価ベンチマークの一つを開発したチューリングでは、VLMを自動運転に活用することで、これまでの物体認識モデルでは判断の難しかったような複雑な状況においても、安全な走行のための判断を行えるシステムの開発に取り組んでいます。このように画像と言語を組み合わせたマルチモーダルモデル性能の理解を促進することで、その応用ポテンシャルをさらに広げていくために、W&B Japanでは今回のリーダーボードの開発に取り組んできました。

「Heron VLMリーダーボード」のモデル評価方法
今回のHeron VLMリーダーボードは、国内のVLM開発をリードするチューリングと国内最大級のLLMリーダーボード: Nejumi LLMリーダーボードを運営するW&B Japanの知見を合わせることで開発されました。このリーダーボードは、従来のLLaVA Bench (In-the-Wild)の日本語版に加え、チューリングが独自に開発したHeron Benchを採用することで、現実世界に即した複雑な画像を用いた評価だけでなく、日本の文化的文脈に根差した評価を可能にしています。さらに、VLMの学習パイプラインは通常のLLMと比べてまだ標準化が進んでおらず、開発元ごとに異なるため管理が複雑になりがちですが、Heron VLMリーダーボードではWeights & Biases プラットフォームの実験管理機能を活用し、評価の再現性とトレーサビリティを担保しています。

インタラクティブにモデル評価結果を分析
本リーダーボード公開ページは、マルチモーダルなデータの可視化に対応したWeights & Biases プラットフォーム（以下WandB）の各機能を利用しています。よりインタラクティブに評価結果を表示し、その場で分析することが可能で、平均スコアをランキング表示するだけでなく、それぞれのモデルがどのような特徴を有しているのかを捉えることができるよう設計されています。例えば、各評価軸における性能を複数のモデル間で比較するレーダーチャートや、一つ一つの評価タスクにおける入出力を可視化するテーブルなどが含まれています。

自社のモデルを非公開で評価することも可能
本リーダーボードで使われている評価フレームワークはWandBを使ってどなたでも実行することが可能です。リーダーボード評価に使われたコードはGitHub上に公開されており、このコードを使うことで、結果を公開しない形で自社のモデルを評価することも可能です。

Weights & Biasesについて
Weights & Biases, Inc.は、米国サンフランシスコを拠点とし、エンタープライズグレードのML実験管理およびエンドツーエンドMLOpsワークフローを包含する開発・運用者向けプラットフォームを提供しています。WandBは、LLM開発や自動運転、創薬など幅広い深層学習ユースケースに対応し、NVIDIA、OpenAI、Toyotaなど、国内外で80万人以上の機械学習開発者に信頼されているAI開発の新たなベストプラクティスです。

W&B社日本語ウェブサイト：https://wandb.jp

本記事はアフィリエイトプログラムによる収益を得ている場合があります