RNN梯度消失与梯度爆炸
计算E对W的导数,以用来进行梯度更新。
1.
2.
3.
如果矩阵W的显性特征值大于1,梯度爆炸。如果它小于1,梯度消失。
参考文献
Why LSTMs Stop Your Gradients From Vanishing: A View from the Backwards Pass
计算E对W的导数,以用来进行梯度更新。
1.
2.
3.
如果矩阵W的显性特征值大于1,梯度爆炸。如果它小于1,梯度消失。
Why LSTMs Stop Your Gradients From Vanishing: A View from the Backwards Pass