AlphaZero
Algoritma RL generik dari DeepMind yang menguasai catur, shogi, dan Go dari nol (self-play). Mengalahkan Stockfish (catur), Elmo (shogi), AlphaGo Zero (Go).
From: LLM Wiki URL: llm-wiki.pages.dev/concepts/alphazero Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min
AlphaZero
Definisi
AlphaZero adalah algoritma reinforcement learning generik dari DeepMind yang menguasai catur, shogi, dan Go dari NOL (self-play).
Pencapaian (Desember 2017)
| Game | Lawan | Hasil | Training |
|---|
| Catur | Stockfish 8 | 28-0-72 | 4 jam |
| Shogi | Elmo | 90-2-8 | 2 jam |
| Go | AlphaGo Zero | 89-11 | 8 jam |
Signifikansi
- Single algorithm untuk 3 game berbeda
- No human knowledge — hanya aturan game
- Pendekatan generik — mendekati AGI
- Master superhuman dalam hitungan jam
Era Pasca
- MuZero (2019) — tanpa model aturan
- AlphaProof (2024) — matematika olympiad
- AlphaGeometry (2024) — geometri
- OpenAI Five (2018) — Dota 2