NLP之LSTM原理剖析

文章目录

背景
- simpleRNN的局限性
LSTM
- 手写一下sigmoid例子
- 支持长记忆的神经网络
- 解读3重门

背景

SimpleRNN有一定局限性，
在这里插入图片描述

图片上的文字内容:
- 图片标题提到“SimpleRNN是一种基础模型。它用于解决序列型问题，其中的每一步的输出会影响到下一步的结果。图中的公式和结构图都展示了这种关系。”
- 下面给出了四行伪代码，描述了SimpleRNN的计算方式。简化为以下形式：
  1. out1和ht1是通过输入x1、前一时刻的状态h(t-1)、权重w1、u1以及偏置项bias进行某种激活函数的计算得到的。
  2. out2和ht2是通过输入x2、前一时刻的状态ht1、权重w2、u2以及偏置项bias进行计算得到的。
  3. out3和ht3是通过输入x3、前一时刻的状态ht2、权重w3、u3以及偏置项bias进行计算得到的。
  4. out4和ht4的计算方式未完整给出，但可以推测其与之前的计算方式类似。
图片中的图示内容:
- 图中展示了一个序列型的网络结构，其中每个时间步都有一个输入和一个输出。
- 从左到右，我们可以看到数据是如何流动的。每个时间步的输入都被标记为“输入”，每个时间步的输出被标记为“输出”，并且每个时间步之间都有一个状态“状态”。
- 图中还展示了这些状态是如何从一个时间步传递到下一个时间步的，表现了RNN的“记忆”特性。
解读SimpleRNN的工作机制:
- SimpleRNN在每个时间步都接受一个输入，并产生一个输出。但与一般的神经网络不同，SimpleRNN还维护一个“状态”，这个状态从一个时间步传递到下一个时间步。
- 这个状态可以被视为网络的“记忆”，它携带了过去的信息，并用于影响当前时间步的计算。
- 伪代码展示了每个时间步输出和状态的计算方法，这两者都依赖于当前的输入、前一时间步的状态、权重和偏置。
识别图中的位置:
- 在图中，“我、爱、祖国”被分别标注在每一个时间步的上方。它们与每个时间步的“计算”模块相连接。
- “记忆”则被标注在每个时间步的中心，并在时间步之间传递。
解释它们在SimpleRNN中的角色:
- “我、爱、祖国”：这些词分别代表每个时间步的输入。在这个例子中，我们可以认为是在处理一个文本序列，即“我爱祖国”。在每一个时间步，“计算”模块会接收这些词作为输入。
- “记忆”：这代表SimpleRNN的内部状态或“隐藏状态”。它会在时间步之间传递，并保存之前时间步的信息。在每一个时间步，“记忆”会被更新，并用于下一个时间步的计算。

所以，答案是“我、爱、祖国”是输入，而“记忆”代表SimpleRNN的内部状态。如果您有其他问题或需要进一步的澄清，请随时告诉我。

简而言之，图片展示了SimpleRNN如何在每个时间步接受输入，并根据前一时间步的“记忆”产生输出的过程。

simpleRNN的局限性

什么是神经网络和simpleRNN？
- 神经网络是一种用于数据处理和模式识别的计算模型。它们通常用于诸如图像识别、自然语言处理等任务。
- simpleRNN（简单循环神经网络）是一种特殊类型的神经网络，用于处理序列数据，比如文本或时间序列数据。
simpleRNN的主要局限性以及简短解释
- 梯度消失和梯度爆炸问题: 在处理长序列时，simpleRNN很难学习到早期信息的重要性，这主要是因为梯度（即用于更新模型权重的信号）会随时间减小（消失）或增大（爆炸）。
- 短期记忆: simpleRNN通常只能记住短期的信息，这意味着它不擅长处理具有长期依赖关系的任务。
- 计算效率: 尽管结构相对简单，但simpleRNN在处理非常长的序列时可能会变得计算密集和低效。
- 过拟合: 因为模型较简单，所以它容易过拟合，即在训练数据上表现很好，但在未见过的数据上表现差。

这些是简单循环神经网络（simpleRNN）的主要局限性。

LSTM

手写一下sigmoid例子

import numpy as np
import matplotlib.pyplot as plt

x = np.arange(-5.0, 5.0, 0.1)
print(x)
y = 1 / (1 + np.exp(-x))
print(y)
plt.plot(x, y)
plt.show()

在这里插入图片描述

支持长记忆的神经网络

在这里插入图片描述

解读并给出图片中所示网络结构的流程解释。

识别图中的关键部分:
- A: 网络的核心计算单元。
- $X_{t-1}$ , $X_t$ , $X_{t+1}$ : 输入序列中的各个时间步。
- $h_{t-1}$ , $h_t$ , $h_{t+1}$ : 对应时间步的输出或隐藏状态。
- “tanh”激活函数，加法和乘法运算。
为每一部分提供描述:
- A: 它是网络的核心部分，负责进行所有的计算。接收输入和前一个时间步的隐藏状态，输出当前时间步的隐藏状态。
- $X_{t-1}$ , $X_t$ , $X_{t+1}$ : 这些是顺序输入到网络中的数据，分别对应于连续的时间步。
- $h_{t-1}$ , $h_t$ , $h_{t+1}$ : 这些是网络在各个时间步的输出或隐藏状态。它们包含了之前时间步的信息，并在连续的时间步中传递。
- “tanh”是一种激活函数，用于非线性转换。
描述整个流程:
- 开始于时间步t-1，输入 $X_{t-1}$ 和隐藏状态 $h_{t-2}$ 被提供给单元A。
- 在单元A内，进行了乘法、加法和“tanh”激活函数的计算。
- 输出结果为隐藏状态 $h_{t-1}$ ，这个状态同时也是这一时间步的输出，并且会被传递到下一个时间步。
- 对于时间步t，该过程重复，输入 $X_t$ 和隐藏状态 $h_{t-1}$ 被提供给单元A，输出为 $h_t$ 。
- 同样的流程继续进行，对于时间步t+1，输入为 $X_{t+1}$ 和隐藏状态 $h_t$ ，输出为 $h_{t+1}$ 。