Peluncuran AlphaZero

DeepMind mempublikasikan AlphaZero — algoritma RL yang belajar dari nol (self-play) dan menguasai catur, shogi, dan Go, mengalahkan Stockfish dan Elmo.

Peluncuran AlphaZero

Ringkasan

DeepMind mempublikasikan paper AlphaZero pada 5 Desember 2017 — algoritma reinforcement learning yang belajar dari nol (self-play) dan menguasai catur, shogi, dan Go — mengalahkan champion dunia komputer (Stockfish, Elmo) dan program Go terkuat.

Cara Kerja

Pencapaian

GameLawanHasilTraining
CaturStockfish 828-0-72 (100 game)4 jam
ShogiElmo90-2-8 (100 game)2 jam
GoAlphaGo Lee (2016)89-11 (100 game)8 jam

Signifikansi

Era Pasca

AlphaZero adalah momen AGI paling dekat — algoritma umum yang menguasai game kompleks tanpa data manusia.