LSTM — Long Short-Term Memory

Varian RNN yang mengatasi vanishing gradient dengan gate mechanism (forget, input, output). Diciptakan Hochreiter & Schmidhuber 1997. Standar NLP sebelum Transformer.

LSTM: cell state + 3 gate (forget, input, output). Sekuensial, susah parallelize. Digantikan Transformer 2017+ untuk NLP. Masih digunakan untuk time series, speech.

Print

LSTM

Definisi

LSTM (Long Short-Term Memory) adalah varian RNN yang mengatasi masalah vanishing gradient dengan menggunakan gate mechanism.

Komponen

  • Cell state (Cₜ) — ‘memory’ yang mengalir melalui waktu
  • Forget gate (fₜ) — memutuskan apa yang dibuang dari cell state
  • Input gate (iₜ) — memutuskan apa yang ditambahkan ke cell state
  • Output gate (oₜ) — memutuskan apa yang di-outputkan

Sejarah

  • 1997 — Hochreiter & Schmidhuber
  • 2000-an — Graves et al. (deep learning LSTM)
  • 2013–2017 — Standar NLP, speech recognition
  • 2017+ — Banyak digantikan Transformer

Connected to

Not yet written

The following pages are referenced but don't exist yet — they'd make good future additions.

  • /concepts/recurrent-neural-network

References

  1. Wikipedia

Type at least 2 characters to search.

Press to navigate, to open, esc to close.