一、概念

长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。

二、结构

1.与RNN结构的区别

在这里插入图片描述

2.深入LSTM结构

公式

使用LSTM的当前输入x^t和上一个状态传递下来的h^(t-1)拼接训练得到四个状态。
在这里插入图片描述

z是将结果通过一个tanh激活函数将转换成-1到1之间的值(这里使用tanh是因为这里是将其做为输入数据,而不是门控信号)。

计算图

在这里插入图片描述

三、总结

通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息;而不像普通的RNN那样只能够“呆萌”地仅有一种记忆叠加方式。对很多需要“长期记忆”的任务来说,尤其好用。

参考:https://zhuanlan.zhihu.com/p/32085405

Last modification:February 4th, 2021 at 03:56 pm
如果觉得我的文章对你有用,请随意赞赏