Attention Is All You Need
Paper seminal yang memperkenalkan arsitektur Transformer — paper paling penting di AI modern.
Detail
- Penulis: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
- Tahun: 2017
- Venue: NeurIPS 2017
- ArXiv: arxiv.org/abs/1706.03762
Ringkasan
Paper ini mengusulkan arsitektur baru bernama Transformer yang berdasarkan sepenuhnya pada mechanism attention, tanpa recurrence atau convolution. Hasilnya: paralelisasi yang lebih baik, training lebih cepat, dan kualitas superior pada tugas terjemahan mesin.
Kontribusi Kunci
- Multi-head self-attention — query, key, value projections
- Scaled dot-product attention —
Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V - Positional encoding — menambahkan informasi posisi ke input
- Encoder-decoder architecture — dengan cross-attention
Dampak
- GPT (1, 2, 3, 4, …) — OpenAI
- BERT — Google
- T5 — Google
- LLaMA, Mistral, Claude, Gemini — semua LLM modern berbasis Transformer
- Vision Transformer (ViT) — Transformer untuk image
- Stable Diffusion, DALL-E, Midjourney — diffusion models + Transformer
Lihat juga
- Transformer — artikel wiki
- Large Language Model — aplikasi
- Embedding — representasi vektor
- Context Window — limit LLM