AlphaZero

Algoritma RL generik dari DeepMind yang menguasai catur, shogi, dan Go dari nol (self-play). Mengalahkan Stockfish (catur), Elmo (shogi), AlphaGo Zero (Go).

From: LLM Wiki URL: llm-wiki.pages.dev/concepts/alphazero Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min

AlphaZero

Definisi

AlphaZero adalah algoritma reinforcement learning generik dari DeepMind yang menguasai catur, shogi, dan Go dari NOL (self-play).

Pencapaian (Desember 2017)

Game	Lawan	Hasil	Training
Catur	Stockfish 8	28-0-72	4 jam
Shogi	Elmo	90-2-8	2 jam
Go	AlphaGo Zero	89-11	8 jam

Signifikansi

Single algorithm untuk 3 game berbeda
No human knowledge — hanya aturan game
Pendekatan generik — mendekati AGI
Master superhuman dalam hitungan jam

Era Pasca

MuZero (2019) — tanpa model aturan
AlphaProof (2024) — matematika olympiad
AlphaGeometry (2024) — geometri
OpenAI Five (2018) — Dota 2