Mixture of Experts (MoE)

Arsitektur neural network dengan beberapa 'expert' sub-network, di mana router memilih subset expert aktif per input. Efisien: lebih banyak parameter dengan FLOPs lebih sedikit.

MoE: sparsely-activated. Mixtral 8x7B, GPT-4 (rumor), Switch Transformer (Google), DeepSeek-V3. Tradeoff: parameter besar, inference lebih murah dari dense equivalent.

Also known as: campuran ahli
Print

Mixture of Experts

Definisi

MoE adalah arsitektur neural network dengan banyak expert sub-networks (umumnya FFN/MLP), di mana router memilih subset expert yang aktif untuk setiap input.

Cara Kerja

  • Router (gating network) — memilih top-k expert
  • Expert networks — sub-networks (biasanya identik strukturnya)
  • Sparse activation — hanya sebagian parameter yang aktif per input

Keuntungan

  • Parameter besar (ratusan miliar) dengan FLOPs lebih sedikit dari dense model setara
  • Skalabilitas — tambah expert tanpa naikkan biaya inference linear

Contoh

  • Mixtral 8x7B (Mistral, 2023) — 8 expert, top-2 aktif
  • GPT-4 (rumor, 2023) — 8 expert, ~220B parameter per expert
  • Switch Transformer (Google, 2021) — 1 expert aktif
  • DeepSeek-V3 (2024) — 256 expert

Connected to

Not yet written

The following pages are referenced but don't exist yet — they'd make good future additions.

  • /concepts/transformer

References

  1. Wikipedia

Type at least 2 characters to search.

Press to navigate, to open, esc to close.