An Empirical Exploration of Recurrent Network Architectures @ ICML 2014

Józefowicz, R., Zaremba, W., & Sutskever, I. An Empirical Exploration of Recurrent Network Architectures. ICML, pp. 2342–2350, 2014.

Recurrent Neural Network 是一种非常有效的用于序列任务的神经网络,但往往难以训练,存在梯度exploding和vanishing的问题,而用gradient clipping可以有效解决exploding的问题,Long Short-Term Memory结构的RNN可以处理vanishing的问题,但是我们往往不知道LSTM是不是最优的网络,也不是很清楚LSTM各个部分对网络性能的影响。

在这篇文章中,作者通过大量实验,尝试了数百种网络结构和参数,得出以下的结论:

  1. Gated Recurrent Unit 往往比 LSTM 效果好
  2. 给 LSTM 中的 forget gate 的 bias 一个较大的值,例如1-2,可以获得很大的性能提升,性能和 GRU差不多
  3. 在 LSTM 中,forget gate 最重要,input gate 也很重要,而 output gate 不是特别重要

最后,作者建议在 LSTM 网络结构中,给 forget gate 一个较大的bias,这样比较容易产生一个更好的结果。

发表评论

电子邮件地址不会被公开。 必填项已用*标注