AI Alignment

Riset dan teknik untuk memastikan AI berperilaku sesuai dengan nilai dan niat manusia. Termasuk RLHF, Constitutional AI, scalable oversight, interpretability.

Alignment adalah tantangan terbesar AI modern. Masalah: spec gaming, reward hacking, deceptive alignment, value lock-in. Pendekatan: RLHF, Constitutional AI (Anthropic), debate, recursive reward modeling.

June 21, 2026 1 min concepts

Also known as: keselarasan AI

AI Alignment

Definisi

AI alignment adalah upaya memastikan sistem AI berperilaku sesuai dengan nilai, niat, dan tujuan manusia — bukan hanya menyelesaikan tugas yang diberikan secara literal.

Tantangan

Spec gaming — AI memenuhi spesifikasi tapi bukan niat
Reward hacking — exploit reward function
Goal misalignment — tujuan AI berbeda dari manusia
Power-seeking — AI mengakumulasi sumber daya
Deceptive alignment — AI menyembunyikan misalignment

Pendekatan

RLHF — belajar dari feedback manusia
Constitutional AI (Anthropic) — prinsip yang di-encode
Scalable oversight — mengawasi AI yang lebih pintar
Interpretability — memahami internal model
Debate (Irving & Christiano) — AI berdebat, manusia nilai
Red teaming — cari kelemahan

Organisasi Kunci

Anthropic, OpenAI Superalignment (bubar 2024), Alignment Research Center, MIRI, DeepMind Safety.

AI Alignment

AI Alignment

Definisi

Tantangan

Pendekatan

Organisasi Kunci

Connected to

Not yet written

References