AI Alignment
Definisi
AI alignment adalah upaya memastikan sistem AI berperilaku sesuai dengan nilai, niat, dan tujuan manusia — bukan hanya menyelesaikan tugas yang diberikan secara literal.
Tantangan
- Spec gaming — AI memenuhi spesifikasi tapi bukan niat
- Reward hacking — exploit reward function
- Goal misalignment — tujuan AI berbeda dari manusia
- Power-seeking — AI mengakumulasi sumber daya
- Deceptive alignment — AI menyembunyikan misalignment
Pendekatan
- RLHF — belajar dari feedback manusia
- Constitutional AI (Anthropic) — prinsip yang di-encode
- Scalable oversight — mengawasi AI yang lebih pintar
- Interpretability — memahami internal model
- Debate (Irving & Christiano) — AI berdebat, manusia nilai
- Red teaming — cari kelemahan
Organisasi Kunci
Anthropic, OpenAI Superalignment (bubar 2024), Alignment Research Center, MIRI, DeepMind Safety.