Attention Is All You Need (Vaswani et al. 2017)

Paper seminal yang memperkenalkan arsitektur Transformer — paper paling penting di AI modern.

Paper 2017 yang memperkenalkan Transformer dan 'attention mechanism' — fondasi semua LLM modern.

June 12, 2017 1 min ai

Attention Is All You Need

Paper seminal yang memperkenalkan arsitektur Transformer — paper paling penting di AI modern.

Detail

Penulis: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin
Tahun: 2017
Venue: NeurIPS 2017
ArXiv: arxiv.org/abs/1706.03762

Ringkasan

Paper ini mengusulkan arsitektur baru bernama Transformer yang berdasarkan sepenuhnya pada mechanism attention, tanpa recurrence atau convolution. Hasilnya: paralelisasi yang lebih baik, training lebih cepat, dan kualitas superior pada tugas terjemahan mesin.

Kontribusi Kunci

Multi-head self-attention — query, key, value projections
Scaled dot-product attention — Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V
Positional encoding — menambahkan informasi posisi ke input
Encoder-decoder architecture — dengan cross-attention

Dampak

GPT (1, 2, 3, 4, …) — OpenAI
BERT — Google
T5 — Google
LLaMA, Mistral, Claude, Gemini — semua LLM modern berbasis Transformer
Vision Transformer (ViT) — Transformer untuk image
Stable Diffusion, DALL-E, Midjourney — diffusion models + Transformer

Lihat juga

Transformer — artikel wiki
Large Language Model — aplikasi
Embedding — representasi vektor
Context Window — limit LLM