Attention Is All You Need (Vaswani et al. 2017)

Paper seminal yang memperkenalkan arsitektur Transformer — paper paling penting di AI modern.

Attention Is All You Need

Paper seminal yang memperkenalkan arsitektur Transformer — paper paling penting di AI modern.

Detail

Ringkasan

Paper ini mengusulkan arsitektur baru bernama Transformer yang berdasarkan sepenuhnya pada mechanism attention, tanpa recurrence atau convolution. Hasilnya: paralelisasi yang lebih baik, training lebih cepat, dan kualitas superior pada tugas terjemahan mesin.

Kontribusi Kunci

  1. Multi-head self-attention — query, key, value projections
  2. Scaled dot-product attentionAttention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V
  3. Positional encoding — menambahkan informasi posisi ke input
  4. Encoder-decoder architecture — dengan cross-attention

Dampak

Lihat juga