Attention Is All You Need (Vaswani et al. 2017)

Paper seminal yang memperkenalkan arsitektur Transformer — paper paling penting di AI modern.

Paper 2017 yang memperkenalkan Transformer dan 'attention mechanism' — fondasi semua LLM modern.

Print

Attention Is All You Need

Paper seminal yang memperkenalkan arsitektur Transformer — paper paling penting di AI modern.

Detail

  • Penulis: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
  • Tahun: 2017
  • Venue: NeurIPS 2017
  • ArXiv: arxiv.org/abs/1706.03762

Ringkasan

Paper ini mengusulkan arsitektur baru bernama Transformer yang berdasarkan sepenuhnya pada mechanism attention, tanpa recurrence atau convolution. Hasilnya: paralelisasi yang lebih baik, training lebih cepat, dan kualitas superior pada tugas terjemahan mesin.

Kontribusi Kunci

  1. Multi-head self-attention — query, key, value projections
  2. Scaled dot-product attentionAttention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V
  3. Positional encoding — menambahkan informasi posisi ke input
  4. Encoder-decoder architecture — dengan cross-attention

Dampak

  • GPT (1, 2, 3, 4, …) — OpenAI
  • BERT — Google
  • T5 — Google
  • LLaMA, Mistral, Claude, Gemini — semua LLM modern berbasis Transformer
  • Vision Transformer (ViT) — Transformer untuk image
  • Stable Diffusion, DALL-E, Midjourney — diffusion models + Transformer

Lihat juga

Type at least 2 characters to search.

Press to navigate, to open, esc to close.