AlphaGo Zero

Versi AlphaGo yang belajar dari NOL (self-play saja, tanpa data manusia) dan melampaui versi awal dalam 36 jam. Tonggak reinforcement learning tanpa data manusia.

From: LLM Wiki URL: llm-wiki.pages.dev/concepts/alphago-zero Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min

AlphaGo Zero

Definisi

AlphaGo Zero adalah versi AlphaGo yang dikembangkan DeepMind yang belajar dari NOL (pure self-play) tanpa data Go profesional. Dirilis Oktober 2017.

Pencapaian

36 jam training: melampaui AlphaGo Lee (2016)
72 jam training: melampaui AlphaGo Master
40 hari training: mengalahkan AlphaGo Lee 100-0
Elo rating: ~5.185 (vs manusia terbaik 3.700-an)

Signifikansi

Tanpa data manusia — model belajar sendiri
Reinforcement learning murni
Mendorong AlphaZero — algoritma generik untuk catur, shogi, Go
Bukti bahwa AI bisa melampaui manusia tanpa data historis