AI Alignment

Riset dan teknik untuk memastikan AI berperilaku sesuai dengan nilai dan niat manusia. Termasuk RLHF, Constitutional AI, scalable oversight, interpretability.

Alignment adalah tantangan terbesar AI modern. Masalah: spec gaming, reward hacking, deceptive alignment, value lock-in. Pendekatan: RLHF, Constitutional AI (Anthropic), debate, recursive reward modeling.

Also known as: keselarasan AI
Print

AI Alignment

Definisi

AI alignment adalah upaya memastikan sistem AI berperilaku sesuai dengan nilai, niat, dan tujuan manusia — bukan hanya menyelesaikan tugas yang diberikan secara literal.

Tantangan

  • Spec gaming — AI memenuhi spesifikasi tapi bukan niat
  • Reward hacking — exploit reward function
  • Goal misalignment — tujuan AI berbeda dari manusia
  • Power-seeking — AI mengakumulasi sumber daya
  • Deceptive alignment — AI menyembunyikan misalignment

Pendekatan

  • RLHF — belajar dari feedback manusia
  • Constitutional AI (Anthropic) — prinsip yang di-encode
  • Scalable oversight — mengawasi AI yang lebih pintar
  • Interpretability — memahami internal model
  • Debate (Irving & Christiano) — AI berdebat, manusia nilai
  • Red teaming — cari kelemahan

Organisasi Kunci

Anthropic, OpenAI Superalignment (bubar 2024), Alignment Research Center, MIRI, DeepMind Safety.

Connected to

Not yet written

The following pages are referenced but don't exist yet — they'd make good future additions.

  • /concepts/rlhf

References

  1. Wikipedia

Type at least 2 characters to search.

Press to navigate, to open, esc to close.