Mixture of Experts (MoE)
Arsitektur neural network dengan beberapa 'expert' sub-network, di mana router memilih subset expert aktif per input. Efisien: lebih banyak parameter dengan FLOPs lebih sedikit.
From: LLM Wiki URL: llm-wiki.pages.dev/concepts/moe Created: June 21, 2026 Updated: June 21, 2026 Read time: 1 min
Mixture of Experts
Definisi
MoE adalah arsitektur neural network dengan banyak expert sub-networks (umumnya FFN/MLP), di mana router memilih subset expert yang aktif untuk setiap input.
Cara Kerja
- Router (gating network) — memilih top-k expert
- Expert networks — sub-networks (biasanya identik strukturnya)
- Sparse activation — hanya sebagian parameter yang aktif per input
Keuntungan
- Parameter besar (ratusan miliar) dengan FLOPs lebih sedikit dari dense model setara
- Skalabilitas — tambah expert tanpa naikkan biaya inference linear
Contoh
- Mixtral 8x7B (Mistral, 2023) — 8 expert, top-2 aktif
- GPT-4 (rumor, 2023) — 8 expert, ~220B parameter per expert
- Switch Transformer (Google, 2021) — 1 expert aktif
- DeepSeek-V3 (2024) — 256 expert