AI Alignment

Riset dan teknik untuk memastikan AI berperilaku sesuai dengan nilai dan niat manusia. Termasuk RLHF, Constitutional AI, scalable oversight, interpretability.

From: LLM Wiki URL: llm-wiki.pages.dev/concepts/alignment Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min

AI Alignment

Definisi

AI alignment adalah upaya memastikan sistem AI berperilaku sesuai dengan nilai, niat, dan tujuan manusia — bukan hanya menyelesaikan tugas yang diberikan secara literal.

Tantangan

Spec gaming — AI memenuhi spesifikasi tapi bukan niat
Reward hacking — exploit reward function
Goal misalignment — tujuan AI berbeda dari manusia
Power-seeking — AI mengakumulasi sumber daya
Deceptive alignment — AI menyembunyikan misalignment

Pendekatan

RLHF — belajar dari feedback manusia
Constitutional AI (Anthropic) — prinsip yang di-encode
Scalable oversight — mengawasi AI yang lebih pintar
Interpretability — memahami internal model
Debate (Irving & Christiano) — AI berdebat, manusia nilai
Red teaming — cari kelemahan

Organisasi Kunci

Anthropic, OpenAI Superalignment (bubar 2024), Alignment Research Center, MIRI, DeepMind Safety.