AlphaGo Zero

Versi AlphaGo yang belajar dari NOL (self-play saja, tanpa data manusia) dan melampaui versi awal dalam 36 jam. Tonggak reinforcement learning tanpa data manusia.

AlphaGo Zero: belajar murni dari self-play, tanpa data Go profesional. Mengalahkan AlphaGo Lee 100-0 setelah 40 hari training.

Print

AlphaGo Zero

Definisi

AlphaGo Zero adalah versi AlphaGo yang dikembangkan DeepMind yang belajar dari NOL (pure self-play) tanpa data Go profesional. Dirilis Oktober 2017.

Pencapaian

  • 36 jam training: melampaui AlphaGo Lee (2016)
  • 72 jam training: melampaui AlphaGo Master
  • 40 hari training: mengalahkan AlphaGo Lee 100-0
  • Elo rating: ~5.185 (vs manusia terbaik 3.700-an)

Signifikansi

  • Tanpa data manusia — model belajar sendiri
  • Reinforcement learning murni
  • Mendorong AlphaZero — algoritma generik untuk catur, shogi, Go
  • Bukti bahwa AI bisa melampaui manusia tanpa data historis

Connected to

Not yet written

The following pages are referenced but don't exist yet — they'd make good future additions.

  • /concepts/alphago
  • /timeline/peluncuran-alphazero

References

  1. Wikipedia

Type at least 2 characters to search.

Press to navigate, to open, esc to close.