性能は「Llama 2」を上回る結果に

Stability AI、メタ「Llama」をベースに独自LLM「FreeWilly」を発表

2023年07月24日 18時15分更新

文● 田口和裕

　Stability AIとCarperAIラボは7月21日（現地時間）、大規模言語モデル「FreeWilly1」および「FreeWilly2」を非商用ライセンスのもと公開した。前者はメタの「Llama」、後者は「Llama 2」というオープンソースのLLMをベースに開発された。

訓練にはマイクロソフトの「Orca Method」を使用

　FreeWilly1は、オリジナルの「LlaMA 65B」ベースモデルを、FreeWilly2は「LlaMA 2 70B」ベースモデルを活用し、新しい合成データセットを標準的なAlpaca形式のSFT（教師あり学習による微調整）で微調整されている。

　本モデルのトレーニング方法は、マイクロソフトが論文で発表した「Orca Method」に影響されている。この方法は、小さな言語モデルに大きな言語モデル（この研究ではGPT-4）のステップバイステップ推論プロセスを学習させることで、モデルの能力とスキルを改善させるものだ。

　FreeWillyは60万点（Orca論文のわずか10分の1）という少ないデータセットで訓練されたにもかかわらず両モデルとも様々なベンチマークにおいて卓越した推論能力を発揮したという。

各種ベンチマークで好成績

一部の項目ではChatGPTを凌駕

　この表は、Stability AIの研究者による評価と、AIや機械学習のコミュニティで知られる「Hugging Face」が運営するオープンソースLLMの性能ランキング「Open LLM Leaderboard」の結果をあわせたものだ。

　FreeWilly2は、「HellaSwag」というAIが物語の続きを予測する能力を競う指標でChatGPTのスコアを超えている。

　最下段の「llama-30b-instruct-2048」というモデルは、韓国のAIスタートアップ「Upstage AI」がLlamaをベースに作成したものであり、7月18日に発表されたばかりのLlaMA 2のスコアを初めて上回ったことで話題になった。

Open LLM Leaderboard（Hugging Face）

　Hugging Faceのランキングを見ると、FreeWilly、FreeWilly2共に多くの指標でLlaMA 2のスコアを上回っていることがわかる。

AGI Eval

　また、「AGIEval」というベンチマークでは論理的推論能力を評価する「LogiQA（英語）」やアメリカの法学部入試テスト「LSAT」、大学進学用テスト「SAT」などの各項目でChatGPTの能力を上回っている。（ただし数学テストだけは大きく下回っている）。

　Stability AIはFreeWillyについて、責任あるリリースに重点を置いていることを強調。社内のレッドチームがテストを実施したうえ、外部からのフィードバックを促している。

　軽量かつ非商用利用が可能な高性能LLMはバジェットが限られている研究者にとって福音となるだろうか。

■関連サイト

ツイートする

カテゴリートップへ

AIオススメ記事

2024年04月05日

AI

AI検索「Perplexity」がかなり便利だったので紹介します
2024年04月29日

AI

漫画家の絵柄、AIでそっくり再現「ピュアモデルAI」ができたワケ
2024年04月15日

AI

画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも
2024年04月08日

AI

GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」
2024年04月08日

AI

3Dアニメーション技術の革新が止まらない
2024年04月24日

AI

マイクロソフト最新SLM「Phi-3」　メタ「Llama 3」あっさり抜く
2024年03月13日

AI

これは便利！「Stable Diffusion」が超簡単に始められる「Stability Matrix」
2024年04月05日

AI

iPhoneで日本語のリアルタイム文字起こしができる「WhisperAX」
2024年04月22日

AI

日本語対応の画像生成AI、東京発のSakana AIが発表　既存モデルより10倍高速
2024年03月22日

AI

ChatGPTのライバル「Claude 3」の使い方　良い点、悪い点まとめ

ピックアップ

sponsored

200mmファンにダスト検知機能！エアフロー最強ケース「ProArt PA602」をレビュー
sponsored
JN-GMM1IPS28BKをレビュー

PS5の実力も引き出せる28型4K/144Hz、KVMまで使える万能モデルが7万円はコスパ◎！
sponsored
なぜクラウドストレージに切り替える企業が増えているのか

ファイルサーバー／NASとクラウドストレージの違いとは？《基本編》
sponsored
購入しやすい価格ながら機能充実、バッテリー長持ちの人気製品

1万円以下ウェアラブルの大定番がさらに進化！睡眠モニタリング精度アップの「HUAWEI Band 9」レビュー
sponsored
eスポーツ大会で採用される24インチクラスの新モデル

180Hzで3万円切りの即買いモデル、スピーカー内蔵のゲーミングディスプレー「G255PF E2」レビュー
sponsored
新たな敵は地中から現れる！

さらなる刺客（シカク）が四角い地球を襲う！5月23日発売『デジボク地球防衛軍２（略）』の魅力をチェック
sponsored
JN-MD-OLED156UHDR-Tをレビュー

15.6型4K有機ELのタッチ対応モバイルディスプレーと16型IPSのWQXGAモデル、どちらを買うべきか
sponsored
大阪・泉州産のスウェット生地を採用した「AKRacing by BEAMS DESIGN モデル」

スウェット生地のチェアってどう？編集部員何人かに座った感想を聞いてみた
sponsored
セブンアールジャパンの西川氏とASRockの原口氏にコダワリを聞いてきた

パソコンショップSEVENとASRockのコダワリが炸裂！ Threadripper PRO 7995WX搭載BTOPC
sponsored
従来よりもさらにコスパよくゲーミングPCを組みたい方へ

ゲーミングマザーボード「GAMING PLUS」シリーズ完全解説＆自作のオススメ構成例も紹介
sponsored

BaaS普及を追求し続けるGMOあおぞらネット銀行と、ARIのAWS導入支援cnarisに迫る
sponsored
強化ガラス製マウスパッド「ROG Moonstone」など気になるデバイスもまとめて試す！

静音性重視の独自スイッチ“ROG NX Snow”がイイ！「ROG Strix Scope II 96 Wireless」をレビュー
sponsored
LEVEL∞のゲーミングデスクトップ「LEVEL-M7A6-R77-TEX」を検証

20万円以下でこの性能は高コスパだぞ！手頃でゲームを快適に遊ぶBTOPCがほしいならコレ

ASCII.jp

AI

Stability AI、メタ「Llama」をベースに独自LLM「FreeWilly」を発表

訓練にはマイクロソフトの「Orca Method」を使用

各種ベンチマークで好成績

AI
メタ、ChatGPT（3.5）級のチャットAIモデル「Llama 2」オープンソースで公開

AI
世界を変えた画像生成AI、さらに進化「Stable Diffusion XL（SDXL）」いよいよ正式公開

トピックス
画像生成AI「Stable Diffusion」開発元、チャットbot「Stable Chat(日本語版)」開発へ

AI
Stable Diffusion開発元も「ChatGPT」対抗、オープンソースの大規模言語モデル「StableLM」発表

AI
Stability AI、コーディングに特化したLLM「StableCode」を発表

AI
Stability AI、日本語に特化した汎用言語モデル「Japanese StableLM Alpha」を発表

AIオススメ記事

AI検索「Perplexity」がかなり便利だったので紹介します

漫画家の絵柄、AIでそっくり再現「ピュアモデルAI」ができたワケ

画像生成AI“児童ポルノ”学習問題、日本では表現規制の議論にも

GPT-4レベルの衝撃 PC内で使えるオープンLLM「Command R+」

3Dアニメーション技術の革新が止まらない

マイクロソフト最新SLM「Phi-3」　メタ「Llama 3」あっさり抜く

これは便利！「Stable Diffusion」が超簡単に始められる「Stability Matrix」

iPhoneで日本語のリアルタイム文字起こしができる「WhisperAX」

日本語対応の画像生成AI、東京発のSakana AIが発表　既存モデルより10倍高速

ChatGPTのライバル「Claude 3」の使い方　良い点、悪い点まとめ

ピックアップ

200mmファンにダスト検知機能！エアフロー最強ケース「ProArt PA602」をレビュー

PS5の実力も引き出せる28型4K/144Hz、KVMまで使える万能モデルが7万円はコスパ◎！

ファイルサーバー／NASとクラウドストレージの違いとは？《基本編》

1万円以下ウェアラブルの大定番がさらに進化！睡眠モニタリング精度アップの「HUAWEI Band 9」レビュー

180Hzで3万円切りの即買いモデル、スピーカー内蔵のゲーミングディスプレー「G255PF E2」レビュー

さらなる刺客（シカク）が四角い地球を襲う！5月23日発売『デジボク地球防衛軍２（略）』の魅力をチェック

15.6型4K有機ELのタッチ対応モバイルディスプレーと16型IPSのWQXGAモデル、どちらを買うべきか

スウェット生地のチェアってどう？編集部員何人かに座った感想を聞いてみた

パソコンショップSEVENとASRockのコダワリが炸裂！ Threadripper PRO 7995WX搭載BTOPC

ゲーミングマザーボード「GAMING PLUS」シリーズ完全解説＆自作のオススメ構成例も紹介

BaaS普及を追求し続けるGMOあおぞらネット銀行と、ARIのAWS導入支援cnarisに迫る

静音性重視の独自スイッチ“ROG NX Snow”がイイ！「ROG Strix Scope II 96 Wireless」をレビュー

20万円以下でこの性能は高コスパだぞ！手頃でゲームを快適に遊ぶBTOPCがほしいならコレ

Stability AI、メタ「Llama」をベースに独自LLM「FreeWilly」を発表

訓練にはマイクロソフトの「Orca Method」を使用

各種ベンチマークで好成績

この記事の編集者は以下の記事をオススメしています

AI メタ、ChatGPT（3.5）級のチャットAIモデル「Llama 2」オープンソースで公開

AI 世界を変えた画像生成AI、さらに進化「Stable Diffusion XL（SDXL）」いよいよ正式公開

トピックス 画像生成AI「Stable Diffusion」開発元、チャットbot「Stable Chat(日本語版)」開発へ

AI Stable Diffusion開発元も「ChatGPT」対抗、オープンソースの大規模言語モデル「StableLM」発表

AI Stability AI、コーディングに特化したLLM「StableCode」を発表

AI Stability AI、日本語に特化した汎用言語モデル「Japanese StableLM Alpha」を発表

AIオススメ記事

ピックアップ

AI
メタ、ChatGPT（3.5）級のチャットAIモデル「Llama 2」オープンソースで公開

AI
世界を変えた画像生成AI、さらに進化「Stable Diffusion XL（SDXL）」いよいよ正式公開

トピックス
画像生成AI「Stable Diffusion」開発元、チャットbot「Stable Chat(日本語版)」開発へ

AI
Stable Diffusion開発元も「ChatGPT」対抗、オープンソースの大規模言語モデル「StableLM」発表

AI
Stability AI、コーディングに特化したLLM「StableCode」を発表

AI
Stability AI、日本語に特化した汎用言語モデル「Japanese StableLM Alpha」を発表