Peluncuran AlphaZero

DeepMind mempublikasikan AlphaZero — algoritma RL yang belajar dari nol (self-play) dan menguasai catur, shogi, dan Go, mengalahkan Stockfish dan Elmo.

AlphaZero: MCTS + deep neural network + self-play RL. Belajar dari nol (no human data). Mengalahkan Stockfish (catur) & Elmo (shogi). 24 jam training = superhuman.

Print

Peluncuran AlphaZero

Ringkasan

DeepMind mempublikasikan paper AlphaZero pada 5 Desember 2017 — algoritma reinforcement learning yang belajar dari nol (self-play) dan menguasai catur, shogi, dan Go — mengalahkan champion dunia komputer (Stockfish, Elmo) dan program Go terkuat.

Cara Kerja

  • Self-play — tidak butuh data manusia
  • MCTS (Monte Carlo Tree Search) untuk search
  • Deep neural network — policy + value
  • Single algorithm untuk semua game

Pencapaian

GameLawanHasilTraining
CaturStockfish 828-0-72 (100 game)4 jam
ShogiElmo90-2-8 (100 game)2 jam
GoAlphaGo Lee (2016)89-11 (100 game)8 jam

Signifikansi

  • General algorithm — satu algoritma untuk 3 game berbeda
  • No human knowledge — hanya aturan game
  • AlphaGo Zero (pendahulunya) memenangkan Go dari nol tanpa data manusia

Era Pasca

  • MuZero (2019) — belajar tanpa model aturan
  • AlphaStar (2019) — StarCraft II
  • AlphaProof (2024) — matematika
  • AlphaGeometry (2024) — geometri
  • OpenAI Five (2018) — Dota 2

AlphaZero adalah momen AGI paling dekat — algoritma umum yang menguasai game kompleks tanpa data manusia.

Connected to

Not yet written

The following pages are referenced but don't exist yet — they'd make good future additions.

  • /concepts/reinforcement-learning
  • /people/david-silver
  • /sources/google-deepmind

References

  1. Wikipedia

Type at least 2 characters to search.

Press to navigate, to open, esc to close.