Paper ‘Attention Is All You Need’
Ringkasan
Paper “Attention Is All You Need” yang diterbitkan di arXiv pada 12 Juni 2017 (NeurIPS 2017) memperkenalkan arsitektur Transformer yang sepenuhnya berdasarkan attention mechanism — tanpa recurrence atau convolution. Paper ini mengubah AI selamanya.
Penulis
Delapan peneliti dari Google Brain dan Google Research:
- Ashish Vaswani (penulis utama)
- Noam Shazeer
- Niki Parmar
- Jakob Uszkoreit
- Llion Jones
- Aidan N. Gomez
- Łukasz Kaiser
- Illia Polosukhin
Inovasi
- Self-attention — setiap token melihat semua token lain
- Multi-head attention — beberapa attention paralel
- Positional encoding — informasi posisi ditambahkan
- Encoder-decoder architecture
- Fully parallelizable — tidak seperti RNN
Hasil
Paper mencapai SOTA di machine translation (WMT 2014 EN-DE, EN-FR) dengan lebih murah training dari model sebelumnya.
Dampak Jangka Panjang
Paper ini menjadi fondasi dari:
- BERT (2018) — Google
- GPT-1, GPT-2, GPT-3 (2018, 2019, 2020) — OpenAI
- T5 (2019) — Google
- LLaMA, LLaMA 2, LLaMA 3 (2023, 2023, 2024) — Meta
- Claude (2023+) — Anthropic
- Gemini (2023+) — Google
- DeepSeek (2024+)
- Hampir semua LLM modern
Pada 2026, paper ini menjadi makalah paling banyak dikutip dalam sejarah AI. Transformer adalah CPU of AI — arsitektur universal.