RNN梯度消失与梯度爆炸

计算E对W的导数,以用来进行梯度更新。
1.image.png
2.image.png
3.image.png

如果矩阵W的显性特征值大于1,梯度爆炸。如果它小于1,梯度消失。

参考文献

Why LSTMs Stop Your Gradients From Vanishing: A View from the Backwards Pass