このページの本文へ

アップルのAI、「Apple Intelligence」がiPhoneやMacを変える! 「WWDC24」特集 第16回

アップルのAIがすごいところを技術的に見る。速度と正確性の両立がポイント

2024年06月12日 16時30分更新

文● 田口和裕

  • この記事をはてなブックマークに追加
  • 本文印刷

プライバシー保護を含めた「責任あるAI原則」掲げる

すべての手順で「責任あるAI原則」を適用

 アップルはAIの開発において、「ユーザーに力を与え」「ユーザーを正しく表現する」「注意深く設計する」「プライバシーを保護する」という4つの「責任あるAI原則」を掲げている。

 これらの原則は、ユーザーのニーズを満たすためのAIツールの開発、偏見や差別を避けるための努力、AIの悪用を防ぐための予防措置、そして強力なプライバシー保護機能の実装などに反映されている。

 アップルは、ユーザーのプライバシーを保護するために、デバイス上で処理をすることや、ユーザーの個人情報を使わずにモデルをトレーニングすることなどを実施している。また、性能を評価する際には有用性だけでなく意図しない危害についても考慮している。

パフォーマンスと評価:プロンプトインジェクションへの耐性が強く、プロンプトへの追従性も高い

 アップルは特定の機能に対するアダプターとベースモデルの両方に対してパフォーマンス評価を公開している。

 実際の使用環境を反映した多様な文書タイプと長さを含む750の応答データセットを使用した要約機能の評価で、アダプターを搭載したモデルは同等のモデルよりも優れた要約を生成するという結果になった。

要約機能のベンチマーク結果

 下記は「Human Evaluation」と呼ばれる「ブレインストーミング」「分類」「質問応答」「コーディング」などさまざまな難易度やカテゴリーを含む多様なプロンプトを用いて、アップルのモデルと競合モデルのどちらの回答がが好まれるかを比較したものだ。

 比較対象は、誰でも利用できるオープンソースモデル(Phi-3、Gemma、Mistral、DBRX)と、有料の商用モデル(GPT-3.5-Turbo、GPT-4-Turbo)。

 結果として、アップルのモデルは他の多くのモデルよりも好まれ、約3Bパラメーターしかないデバイスモデルでも「Phi-3-mini」「Mistral-7B」「Gemma-7B」といった大型モデルよりも好まれるという結果を示した。

 また、サーバーモデルは「GPT-4-Turbo」には及ばないものの「DBRX-Instruct」「Mixtral-8x22B」「GPT-3.5-Turbo」よりも好まれる結果を示した。

Human Evaluation

 下記は「敵対的プロンプト」と呼ばれる、モデルをだまして有害なコンテンツを生成させようとするさまざまなトリッキーな質問をモデルに投げ、人間が「違反率(モデルが問題のある回答を生成する割合)」を測定したもの。

 テストの結果、両モデルともオープンソースや市販のモデルと比較して、違反率が低く、より堅牢であることがわかった。

出力の有害性評価

 さらにアップルは、内部および外部の専門家チームと協力し、手動および自動の両方で「レッドチーム演習」(システムの脆弱性を攻撃によって見つけるテスト)を実施し、モデルの安全性をさらに評価している。

安全性テスト

 モデルが指示にどれだけ正確に従えるかを評価する「Instruction-Following Eval (IFEval)」でも、両モデルが競合モデルと比較して、複雑な指示によりよく従うことが明らかになっている。

IFEval

 要約や作文など文章作成における様々な側面をカバーするベンチマークでも競合モデルと同等もしくはそれ以上の結果を示している。これは作文に特化といったアダプターは使用しておらず、基盤モデルだけの成績だ。

Writing Benchmarks

 ベンチマーク結果の中で目立つのは、敵対的プロンプトに対する耐性だ。ほぼすべての競合モデルが10%以上の確率(GPT-4-Turboは20%超え)で敵対的プロンプトに引っかかって有害な出力をするのに対し、Apple Inteligenceはデバイス、サーバー両モデルとも一桁台という低い違反率を示している。

 また、プロンプトへの追従性を評価する「IFEval」の値も高く、特にデバイスモデルは競合モデルより1ランク上の追従性を持つと思われる。

カテゴリートップへ

この連載の記事
ピックアップ