Attention Is All You Need (Vaswani et al. 2017)
Paper seminal yang memperkenalkan arsitektur Transformer — paper paling penting di AI modern.
From: LLM Wiki URL: llm-wiki.pages.dev/sources/attention-is-all-you-need Created: June 12, 2017 Read time: 1 min
Attention Is All You Need
Paper seminal yang memperkenalkan arsitektur Transformer — paper paling penting di AI modern.
Detail
- Penulis: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
- Tahun: 2017
- Venue: NeurIPS 2017
- ArXiv: arxiv.org/abs/1706.03762
Ringkasan
Paper ini mengusulkan arsitektur baru bernama Transformer yang berdasarkan sepenuhnya pada mechanism attention, tanpa recurrence atau convolution. Hasilnya: paralelisasi yang lebih baik, training lebih cepat, dan kualitas superior pada tugas terjemahan mesin.
Kontribusi Kunci
- Multi-head self-attention — query, key, value projections
- Scaled dot-product attention —
Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V
- Positional encoding — menambahkan informasi posisi ke input
- Encoder-decoder architecture — dengan cross-attention
Dampak
- GPT (1, 2, 3, 4, …) — OpenAI
- BERT — Google
- T5 — Google
- LLaMA, Mistral, Claude, Gemini — semua LLM modern berbasis Transformer
- Vision Transformer (ViT) — Transformer untuk image
- Stable Diffusion, DALL-E, Midjourney — diffusion models + Transformer
Lihat juga