#reinforcement-learning
3 articles tagged with #reinforcement-learning.
Reinforcement Learning (RL) Paradigma machine learning di mana agen belajar dengan berinteraksi dengan environment, menerima reward atau punishment. AlphaGo, RLHF untuk LLM. AlphaGo Zero Versi AlphaGo yang belajar dari NOL (self-play saja, tanpa data manusia) dan melampaui versi awal dalam 36 jam. Tonggak reinforcement learning tanpa data manusia. AlphaZero Algoritma RL generik dari DeepMind yang menguasai catur, shogi, dan Go dari nol (self-play). Mengalahkan Stockfish (catur), Elmo (shogi), AlphaGo Zero (Go).