RLHF
Definisi
RLHF adalah teknik untuk menyelaraskan LLM dengan preferensi manusia dengan tiga tahap:
- Supervised Fine-Tuning (SFT) — fine-tune pada demo output yang ditulis manusia
- Reward Modeling — manusia ranking beberapa output model → reward model belajar preferensi
- RL Optimization — PPO (Proximal Policy Optimization) atau GRPO melatih LLM untuk maximize reward
Sejarah
- 2017 — Christiano et al., “Deep Reinforcement Learning from Human Preferences”
- 2022 — InstructGPT (OpenAI) menunjukkan RLHF membuat GPT-3 mengikuti instruksi
- 2022 — ChatGPT (GPT-3.5 + RLHF) menjadi sukses viral
- 2023+ — Standar industri untuk alignment LLM
Varian
- Constitutional AI (Anthropic) — AI feedback, bukan manusia
- RLAIF — RL from AI Feedback
- DPO (Direct Preference Optimization) — tanpa reward model terpisah
- GRPO (Group Relative Policy Optimization) — DeepSeek