AlphaGo Zero
Versi AlphaGo yang belajar dari NOL (self-play saja, tanpa data manusia) dan melampaui versi awal dalam 36 jam. Tonggak reinforcement learning tanpa data manusia.
From: LLM Wiki URL: llm-wiki.pages.dev/concepts/alphago-zero Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min
AlphaGo Zero
Definisi
AlphaGo Zero adalah versi AlphaGo yang dikembangkan DeepMind yang belajar dari NOL (pure self-play) tanpa data Go profesional. Dirilis Oktober 2017.
Pencapaian
- 36 jam training: melampaui AlphaGo Lee (2016)
- 72 jam training: melampaui AlphaGo Master
- 40 hari training: mengalahkan AlphaGo Lee 100-0
- Elo rating: ~5.185 (vs manusia terbaik 3.700-an)
Signifikansi
- Tanpa data manusia — model belajar sendiri
- Reinforcement learning murni
- Mendorong AlphaZero — algoritma generik untuk catur, shogi, Go
- Bukti bahwa AI bisa melampaui manusia tanpa data historis