Tag

#rlhf

1 article tagged with #rlhf.

RLHF — Reinforcement Learning from Human Feedback Teknik alignment LLM dengan belajar dari preferensi manusia. Human ranker menilai beberapa output model, reward model dilatih, lalu policy di-optimize dengan RL. concepts · June 21, 2026