#alignment
3 articles tagged with #alignment.
AI Safety — Keamanan AI Bidang riset yang mempelajari risiko AI (existential, alignment, misuse) dan bagaimana membangun AI yang aman dan bermanfaat. Termasuk technical safety, governance, dan ethics. AI Alignment Riset dan teknik untuk memastikan AI berperilaku sesuai dengan nilai dan niat manusia. Termasuk RLHF, Constitutional AI, scalable oversight, interpretability. RLHF — Reinforcement Learning from Human Feedback Teknik alignment LLM dengan belajar dari preferensi manusia. Human ranker menilai beberapa output model, reward model dilatih, lalu policy di-optimize dengan RL.