人間のフィードバックによる強化学習(RLHF)
RLHFは、2022年にOpenAIが論文を通じて発表した研究です(Training language models to follow instructions with human feedback, 2022)。ユーザーの指示に対するAIの反応が好ましかったのかどうかを、AIモデル自身が判断することは容易ではありません。言語モデルを作っただけでは、ユーザーの意図通りに振る舞えないわけです。モデルはハルシネーション(幻覚)を起こし、指示に従わないといったことが当たり前に起きます。論文では、「親切で」「正直で」「無害」な応答をするようにチューニングするにはどうすればいいかが紹介されています。端的に言えば、「LLMの価値判断形成プロセスに人間の価値観を入れ込んでいく」というものです。
まず、人間が作成した良い例をまとめ、教師ありモデルとしてLLMを微調整します。その後、そのLLMを使って、モデルの出力結果を「どちらが好ましいか」を人間が比較して報酬モデルを作っていきます。そして、完成したモデルを、さらにAIで強化学習し、「人間が好むような応答」を最大化するように最適化していきます。そして、それを最初の段階から再び繰り返し、人間にとって望ましい回答を出すよう、モデルを改良し続けるのです。この結果、175Bパラメーターの巨大な「GPT-3」のみならず、小さな1.3Bモデルでさえも、人間に好まれる応答を生成できるようになったようです。また、事実を適切に選ぶ能力が強化されたり、毒性低減(ヘイトスピーチなどの発言をしない)が起きたり、即興性への対応力が上がったのだそうです。
RLHFで学習した小規模LLMモデルの反応結果。「6歳児に月面着陸について数文で説明しなさい」という設問に対して、「人々は月に行き、そこで見たものを写真に撮り、それを地球に送り返した」と返答している。(OpenAIのページより )
OpenAIはこの方法論を、GPT-3.5以降に積極的に導入しているようです。このトレーニングは、専門性の高いラベル付け知識を持つ人間(トレーナー)が関わり、数百万の質問に応える必要があり、部分的な応用に留まっていたようです。
しかし、GPT-4o世代になってくると、RLHF適応を前提として、つまり人間に親和するように最初から学習が進められているようです。
初期はデータラベリングの作業は40人程度でした。OpenAIからは発表がないので、正確なところは不明ですが、データ規模が論文時より100倍以上になっていることから、現在では数千人規模にまで増えていると推測できます。開発には非常にコストがかかる方法ですが、この積み上げが、GPT-4oの人間らしさを生み出せている理由のようです。
そして、このRLHFの性能の高さが、コンテキスト記憶と組み合わさることで、より強力になるようです。

この連載の記事
-
第134回
AI
“AI読者”が小説執筆の支えに 感想を励みに30話まで完成 -
第133回
AI
xAIの画像生成AI「Grok Imagine」が凄まじい。使い方は簡単、アダルト規制はユルユル -
第132回
AI
画像生成AI:NVIDIA版“Nano Banana”が面白い。物理的な正確さに強い「NVIDIA ChronoEdit」 -
第131回
AI
AIに恋して救われた人、依存した人 2.7万人の告白から見えた“現代の孤独”と、AI設計の問題点 -
第130回
AI
グーグルNano Banana級に便利 無料で使える画像生成AI「Qwen-Image-Edit-2509」の実力 -
第129回
AI
動画生成AI「Sora 2」強力機能、無料アプリで再現してみた -
第128回
AI
これがAIの集客力!ゲームショウで注目を浴びた“動く立体ヒロイン” -
第127回
AI
「Sora 2」は何がすごい? 著作権問題も含めて整理 -
第126回
AI
グーグル「Nano Banana」超えた? 画像生成AI「Seedream 4.0」徹底比較 -
第125回
AI
グーグル画像生成AI「Nano Banana」超便利に使える“神アプリ” AI開発で続々登場 -
第124回
AI
「やりたかった恋愛シミュレーション、AIで作れた」 AIゲームの進化と課題 - この連載の一覧へ





