Peluncuran AlphaZero

DeepMind mempublikasikan AlphaZero — algoritma RL yang belajar dari nol (self-play) dan menguasai catur, shogi, dan Go, mengalahkan Stockfish dan Elmo.

From: LLM Wiki URL: llm-wiki.pages.dev/timeline/peluncuran-alphazero Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min

Peluncuran AlphaZero

Ringkasan

DeepMind mempublikasikan paper AlphaZero pada 5 Desember 2017 — algoritma reinforcement learning yang belajar dari nol (self-play) dan menguasai catur, shogi, dan Go — mengalahkan champion dunia komputer (Stockfish, Elmo) dan program Go terkuat.

Cara Kerja

Self-play — tidak butuh data manusia
MCTS (Monte Carlo Tree Search) untuk search
Deep neural network — policy + value
Single algorithm untuk semua game

Pencapaian

Game	Lawan	Hasil	Training
Catur	Stockfish 8	28-0-72 (100 game)	4 jam
Shogi	Elmo	90-2-8 (100 game)	2 jam
Go	AlphaGo Lee (2016)	89-11 (100 game)	8 jam

Signifikansi

General algorithm — satu algoritma untuk 3 game berbeda
No human knowledge — hanya aturan game
AlphaGo Zero (pendahulunya) memenangkan Go dari nol tanpa data manusia

Era Pasca

MuZero (2019) — belajar tanpa model aturan
AlphaStar (2019) — StarCraft II
AlphaProof (2024) — matematika
AlphaGeometry (2024) — geometri
OpenAI Five (2018) — Dota 2

AlphaZero adalah momen AGI paling dekat — algoritma umum yang menguasai game kompleks tanpa data manusia.