AI Alignment
Riset dan teknik untuk memastikan AI berperilaku sesuai dengan nilai dan niat manusia. Termasuk RLHF, Constitutional AI, scalable oversight, interpretability.
From: LLM Wiki URL: llm-wiki.pages.dev/concepts/alignment Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min
AI Alignment
Definisi
AI alignment adalah upaya memastikan sistem AI berperilaku sesuai dengan nilai, niat, dan tujuan manusia — bukan hanya menyelesaikan tugas yang diberikan secara literal.
Tantangan
- Spec gaming — AI memenuhi spesifikasi tapi bukan niat
- Reward hacking — exploit reward function
- Goal misalignment — tujuan AI berbeda dari manusia
- Power-seeking — AI mengakumulasi sumber daya
- Deceptive alignment — AI menyembunyikan misalignment
Pendekatan
- RLHF — belajar dari feedback manusia
- Constitutional AI (Anthropic) — prinsip yang di-encode
- Scalable oversight — mengawasi AI yang lebih pintar
- Interpretability — memahami internal model
- Debate (Irving & Christiano) — AI berdebat, manusia nilai
- Red teaming — cari kelemahan
Organisasi Kunci
Anthropic, OpenAI Superalignment (bubar 2024), Alignment Research Center, MIRI, DeepMind Safety.