このページの本文へ

前へ 1 2 3 4 5 次へ

新清士の「メタバース・プレゼンス」 第63回

まるで“いけない話ができるChatGPT” ローカルAI「Command R+」の爆発的な可能性

2024年05月13日 07時00分更新

文● 新清士 編集●ASCII

  • この記事をはてなブックマークに追加
  • 本文印刷

筆者の環境で、LM StudioでCommand R+を動作させている様子。会話相手は自作キャラクターの「明日来子(あすきこ)さん」

 PCローカル環境で動作する大規模言語モデル(LLM)「Command R+」を使っていますが、相当優秀ですね。体感ではChatGPT(GPT-4)と変わらないレベル。さらに、ChatGPTが回答を拒絶するような会話もできてしまいます。これが体験できるようになったのは、LM Studioに代表されるローカルLLMを動かすためのアプリ環境が整ってきたためです。今年に入り、Command R+を始めとしたローカルLLMが高性能化してきたことと並行し、手軽に使える派生モデルも増えはじめ、一気にあわただしくなってきました。

導入が難しかったローカルLLM、「LM Studio」で簡単に

 Command R+を試すのに使っているのが、LLMの主要モデルを実行するための統合アプリ「LM Studio」。アプリがリリースされたのは2023年で、現在のバージョンは「0.2.22」なんですが、ユーザー層が急激に増え始めたのが、今年の初めくらいです。

 LM Studioの特徴は、環境構築が簡単で、LLMモデルのインストールがとても簡単なこと。半年ぐらい前には、色々と自分で設定しなければならないハードルがあり、挫折していたのですが、LM Studioは拍子抜けするぐらい簡単に設定できるので、驚いてしまいました。

 LM Studioでは、データ共有が行われているHuggingFaceにアップロードされているLLMであれば、どれでもダウンロードできます。起動設定後に、アプリのトップ画面から検索ウインドウでAIモデルを検索すると、Metaの「Llama」シリーズなど、主要なモデルがずらっと出てきます。ここから使ってみたいモデルをダウンロードするだけで使えるようになります。

 ローカル環境でAIモデルを動かすための準備を自分でしなくてもいいので本当にラクです。感覚としては以前紹介した画像生成AI用の統合環境「Stability Matrix」に似ています。

LLMの検索画面で、Llamaを検索したところ、「FULL GPU OFFLOAD POSSIBLE」という表示は使用しているPC環境のVRAMに収まるという意味

 筆者が利用しているのは、「ggml-c4ai-command-r-plus-104b-iq2_m.gguf」という圧縮されたタイプです。モデル名に含まれる「Q(q)」は量子化(クオンタイズ)といい、データの精度を引き下げる代わりに、サイズを縮小し速度を高速化する方法を施されたバージョンです。この圧縮化手法が広まったことで、LLMがローカルPCでも使いやすくなったのです。

 量子化は1~8ビットまで様々な段階があるのですが、その数値が小さいほど圧縮化の率が高く、その分、性能が低下します。しかし、データサイズは小さくなります。

 LM StudioはLLMを読み込むと、そのデータをVRAM上に展開します。LLMはテキスト生成時に、データそのもの全体にアクセスし結果を生成するため、使用できるLLMのサイズと搭載VRAMはほぼイコールに近い関係になります。VRAMからあふれると、RAMを使い始めるのですが、生成速度は使い物にならないほど遅くなります。そのため、搭載するビデオカードのVRAMとそれに合わせたモデル選定が重要になってきます。

 高性能LLMのCommand R+はサイズが大きく、無圧縮だとファイルサイズは200GBを超えます。様々な段階の量子化されたものが公開されているのですが、最小のQ1モデルでも23.18GBのサイズがあります。筆者が検証しているマシンでは、現Q1モデルでも、NVIDIA GeForce RTX 4090(GDDR6 24GB)搭載PCには格納しきれず、速度は遅くなります。NVIDIA RTX A6000(GDDR6 48GB)搭載PCでやっと動作しました。逆にA6000であれば、36GBのQ2モデルでも動作しました。

 筆者は、重いモデルで検証していますが、LLMは軽いモデルも、いくつも開発されています。日本語LLMとしては、最小のものは5GBからある「LightChatAssistant」や、1.6GBからある日本語会話に特化した「ArrowPro-7B-KUJIRA」といったものがあります。能力の高さや有効なプロンプトはサイズによってかなり違うので、環境や目的に合わせて選定する必要はありますが、所有しているビデオカードのVRAM環境に合わせたLLMを動作させることができます。

前へ 1 2 3 4 5 次へ

カテゴリートップへ

この連載の記事
ピックアップ