RLHF — Reinforcement Learning from Human Feedback

Teknik alignment LLM dengan belajar dari preferensi manusia. Human ranker menilai beberapa output model, reward model dilatih, lalu policy di-optimize dengan RL.

From: LLM Wiki URL: llm-wiki.pages.dev/concepts/rlhf Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min

RLHF

Definisi

RLHF adalah teknik untuk menyelaraskan LLM dengan preferensi manusia dengan tiga tahap:

Supervised Fine-Tuning (SFT) — fine-tune pada demo output yang ditulis manusia
Reward Modeling — manusia ranking beberapa output model → reward model belajar preferensi
RL Optimization — PPO (Proximal Policy Optimization) atau GRPO melatih LLM untuk maximize reward

Sejarah

2017 — Christiano et al., “Deep Reinforcement Learning from Human Preferences”
2022 — InstructGPT (OpenAI) menunjukkan RLHF membuat GPT-3 mengikuti instruksi
2022 — ChatGPT (GPT-3.5 + RLHF) menjadi sukses viral
2023+ — Standar industri untuk alignment LLM

Varian

Constitutional AI (Anthropic) — AI feedback, bukan manusia
RLAIF — RL from AI Feedback
DPO (Direct Preference Optimization) — tanpa reward model terpisah
GRPO (Group Relative Policy Optimization) — DeepSeek