AI Alignment

Riset dan teknik untuk memastikan AI berperilaku sesuai dengan nilai dan niat manusia. Termasuk RLHF, Constitutional AI, scalable oversight, interpretability.

AI Alignment

Definisi

AI alignment adalah upaya memastikan sistem AI berperilaku sesuai dengan nilai, niat, dan tujuan manusia — bukan hanya menyelesaikan tugas yang diberikan secara literal.

Tantangan

Pendekatan

Organisasi Kunci

Anthropic, OpenAI Superalignment (bubar 2024), Alignment Research Center, MIRI, DeepMind Safety.