×

长短期记忆网络(LSTM)

hqy hqy 发表于2025-02-24 23:34:35 浏览13 评论0百度已收录

抢沙发发表评论

      循环神经网络(Recurrent Neural Network,RNN)最早被提出用来寻找序列数据之中的内部关联。不同于传统神经网络模型,上一层的输出直接作为输入传输到下一层,之间完全没有任何关联。循环神经网络的特点就是可以利用的内部记忆功能处理依据时序排列的输入序列。其具体表现为可以将前一时刻的隐藏信息同当前信息一同考虑,并生成下一刻的输出,这样就将本来割裂的信息变得有联系。RNN 的结构图如图 1 所示,一个细胞内的输出 H 由 X 和 X 前一序列的值通过 tanh 函数后共同决定。可以看到经过 RNN 网络之后,原本三个不同序列的 X 值产生了关联。因此 RNN 的提出为解决序列问题提供了很好的思路,其也常常被应用在文字语义分割,语音情感分析等方面。

       上面介绍的 RNN 网络,已经可以很好的处理序列问题。但是其本身也存在着不足。如果序列数据本身较短,RNN 可以完美应对。当序列数据过于长时,RNN 网络所需记忆的数据就会非常巨大,无法处理序列较长的数据。此时,长短期记忆网络(long-short term memory.LSTM)[50]的出现就解决了这一问题。LSTM主要思路就是解决 RNN 处理时序较长的数据时,所记忆数据量过大的问题。LSTM 网络一个细胞状态包括了四个门函数:遗忘门、输入门、候选门,输出门。在记忆数据的同时,遗忘那些不太重要的数据。LSTM 结构图如图2 所示。可以看到,在 LSTM 网络中,一个细胞内相比于 RNN,做出的操作更为复杂,对于不同序列的 X 值不只是经过 tanh 函数融合到一起,这样就解决了 RNN 中出现的问题。

      LSTM 是现在处理序列问题的主流选择。行为识别本质上处理的是一段时间序列的图像问题。所以同语义情感分析一样,行为识别就是将视频当中的一帧帧图片等价于一句话中的一个个字符,经过 LSTM 处理后,得到其类别。

微信公众号二维码

微信公众号:人工智能感知信息处理算法研究院