GPT、LSTM、RNN

来自牛奶河Wiki
阿奔讨论 | 贡献2023年6月17日 (六) 21:49的版本 (创建页面,内容为“* GPT (Generative Pre-trained Transformer) 是一种基于 Transformer 模型的语言生成模型 * LSTM (Long Short-Term Memory) # 提出了门机制:遗忘门、输入门、输出门; # 细胞状态:在RNN中只有隐藏状态的传播,而在LSTM中,引入了细胞状态。 LSTM 的结构有效地解决了 RNN 的短期依赖瓶颈。但是相较于 RNN,LSTM 含有更多的参数需要学习,从而导致 LSTM 的学习速度大大降低。…”)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳到导航 跳到搜索
  • GPT (Generative Pre-trained Transformer) 是一种基于 Transformer 模型的语言生成模型
  • LSTM (Long Short-Term Memory)
  1. 提出了门机制:遗忘门、输入门、输出门;
  2. 细胞状态:在RNN中只有隐藏状态的传播,而在LSTM中,引入了细胞状态。

LSTM 的结构有效地解决了 RNN 的短期依赖瓶颈。但是相较于 RNN,LSTM 含有更多的参数需要学习,从而导致 LSTM 的学习速度大大降低。

越接近输入层的 LSTM 层,更新速度越慢。LSTM 最大的优势是在时序上反向传播不容易出现梯度消失,但是它不能保证层与层之间传播过深不会出现梯度消失。

在很多次实验之后,还是一两层的 LSTM 能够更加快速地收敛,而在很多过深的 LSTM 网络训练中,几乎无一例外地出现了梯度消失,局部收敛,训练效果差的情况。

  • RNN (Recurrent Neural Network)

RNN不具备长期记忆,而只具备短期记忆。由于梯度弥散,导致在序列长度很长时,无法在较后的时间步中,按照梯度更新较前时间步的 ,导致无法根据后续序列来修改前向序列的参数,使得前向序列无法很好地做特征提取,使得在长时间步过后,模型将无法再获取有效的前向序列记忆信息。

梯度弥散,在 RNN 属于重要问题,为此便提出了以 LSTM、GRU 等结构的变种,来解决 RNN 短期记忆的瓶颈。同样,若初始参数较大时,将导致梯度爆炸,然而梯度爆炸相对于梯度弥散较容易解决,通常加入梯度裁剪即可一定程度缓解。