Reinforcement Learning (RL)

Paradigma machine learning di mana agen belajar dengan berinteraksi dengan environment, menerima reward atau punishment. AlphaGo, RLHF untuk LLM.

RL: agen → action → environment → reward. Algoritma: Q-learning, DQN, PPO, GRPO. Aplikasi: game AI (AlphaGo, AlphaZero), robot, RLHF untuk LLM alignment.

June 21, 2026 1 min concepts

Also known as: RL, pembelajaran penguatan

Reinforcement Learning

Definisi

Reinforcement learning (RL) adalah paradigma ML di mana agen belajar dengan berinteraksi dengan environment, menerima reward atau punishment.

Komponen

Agent — pengambil keputusan
Environment — dunia tempat agen berada
State — representasi situasi
Action — pilihan agen
Reward — feedback skalar
Policy — strategi agen

Algoritma

Q-learning (1989)
DQN (Deep Q-Network, 2013) — DeepMind
Policy Gradient (REINFORCE, 1992)
Actor-Critic (A2C, A3C)
PPO (Proximal Policy Optimization, 2017) — OpenAI
GRPO (Group Relative Policy Optimization, 2024) — DeepSeek

Aplikasi

Game AI — AlphaGo, AlphaZero, OpenAI Five (Dota 2)
Robotics — locomotion, manipulation
RLHF — alignment LLM
Autonomous driving

Reinforcement Learning (RL)

Reinforcement Learning

Definisi

Komponen

Algoritma

Aplikasi

Connected to

Not yet written

References