Seq2Seq attention机制理解

attention核心:

传统的seq2seq model中,任意时间步使用相同的c(背景变量),而在attention中,每一个时间步的c是通过实时计算得出的。attention的两个关键点就是如何计算背景变量和如何用它来更新隐藏状态

1、计算背景变量

函数a根据解码器器在时间步1的隐藏状态和编码器器在各个时间步的隐藏状态计算softmax运算的输入。 softmax运算输出概率分布并对编码器器各个时间步的隐藏状态做加权平均,从而得到背景变量

2、矢量化计算

3、更新隐藏状态

Last modification:February 4th, 2021 at 03:55 pm
如果觉得我的文章对你有用,请随意赞赏