Quantcast
Channel: InfoQ - 促进软件开发领域知识与创新的传播
Viewing all articles
Browse latest Browse all 1638

NLP中应用最广泛的特征抽取模型-LSTM

$
0
0

本篇介绍在NLP中应用最为广泛的特征抽取模型LSTM,详细介绍LSTM提出的由来及其模型结构,并由此分析了LSTM能够解决RNN不能够对长序列进行处理和训练的原因。

在此前的文章中我曾提到过RNN模型结构及其反向传播和正向传播机制,文末提到RNN会出现梯度消失等问题,使得训练变得困难。既然RNN有这样的问题,该怎么解决呢?我们今天的主角LSTM(Long Short-Term Memory)就该登场了。

LSTM的提出

在LSTM提出之前,RNN的训练基于BPTT(Back-Propagation Through Time)或者RTRL(Real Time Recurrent Learning)。通过这两种方式对RNN进行训练时,当误差在序列内进行传播时,会出现梯度消失或者爆炸的情况。

当出现梯度消失时,在训练时,权重会出现摇摆和震荡;梯度消失使得训练会耗费大量的时间,甚至干脆就停滞。


Viewing all articles
Browse latest Browse all 1638

Trending Articles