RLHF — Reinforcement Learning from Human Feedback

Teknik alignment LLM dengan belajar dari preferensi manusia. Human ranker menilai beberapa output model, reward model dilatih, lalu policy di-optimize dengan RL.

RLHF

Definisi

RLHF adalah teknik untuk menyelaraskan LLM dengan preferensi manusia dengan tiga tahap:

  1. Supervised Fine-Tuning (SFT) — fine-tune pada demo output yang ditulis manusia
  2. Reward Modeling — manusia ranking beberapa output model → reward model belajar preferensi
  3. RL Optimization — PPO (Proximal Policy Optimization) atau GRPO melatih LLM untuk maximize reward

Sejarah

Varian