Varian RNN yang mengatasi vanishing gradient dengan gate mechanism (forget, input, output). Diciptakan Hochreiter & Schmidhuber 1997. Standar NLP sebelum Transformer.
LSTM: cell state + 3 gate (forget, input, output). Sekuensial, susah parallelize. Digantikan Transformer 2017+ untuk NLP. Masih digunakan untuk time series, speech.