admin管理员组

文章数量:1652184

前言:

论文和两位大佬的解读一起看AI蜗牛车 和翻滚的小@强

论文原文:Convolutional LSTM Network: a machine learning approach for precipitation nowcasting

论文翻译:中文翻译

Abstract:

1.提出短临降水的概念,从机器学习的角度将短临降水预测归为时空序列预测问题

2.提出使用一种新的方法(convlstm),核心是拓展FC-LSTM中的input to state和state to state为卷积结构

3.介绍模型的架构,模型总的架构是基于convlstm的端端的架构

4.介绍实验结果,实验结果表明该网络相对于FC-LSTM和业务中的ROVER算法更为优秀

Introduction:

1.介绍短临降水预报任务目标,介绍其预报难点:需要高分辨率和时间精度

ps:这也是我认为时空序列预报主要解决的两个问题:空间预测的准确性和时间预测的长度

2.介绍短临降水预报现有的两种方法:1)NWP方法,缺点是需要对大气模式中的物理量进行复杂和详细的模拟;2)基于数字图象处理的光流法,缺点是流估计步骤和雷达回波推断步骤是分开的

3.现有的困难可以使用机器学习来解决:将其看为一个时空学列预测问题,输入是过去的雷达图像,输出是未来雷达图像。此前的RNN模型到FC-LSTM模型都可以用来解决时空序列预测的问题。但是,这俩模型都没有考虑到空间的相关性。

4.介绍完上面的内容后引出自己的网络结构,和Abstract差不多

Preliminaries:

1.短临降水预报的目标是:利用之前观察到的雷达回波图像,预测未来的雷达回波图像。公式可以写为:​

ps:通过t时刻之前J张雷达回波图像,在t时刻进行对未来K张雷达回波图像进行预测,选一组预测最准的图像当作预测值。

2.特别提到,每个X都有三个维度(P, M, N),M和N对应的是图像的宽度和长度,P则对应雷达回波的强度。作者画了一张图解释X的维度问题。

 ps:这个图也解释了为什么雷达图像的可以预测地区未来的降水量。再附加一条解释,雷达回波图像的强度(dbz)是和降水有一个Z-R关系,所以有了未来的回波强度,就可以知道未来的降雨量。

3.顺便提到了和时间序列预测的不同:复杂度比较大

The Model:

1)Convlstm

1.介绍了一下LSTM,示意图和公式如下

2.先摆出ConvLSTM公式

 不难发现,就是Abstruct中描述的“拓展FC-LSTM中的input to state和state to state为卷积结构

 3.介绍一下ConvLSTM的结构

三个输入,记忆单元、隐藏状态和输入X都由一维变为三维张量

ps:有个细节就是使用Zero-padding来进行填充C和H,达到和X的行数和列数是一样的。作者也解释了Zero-padding的好处。

2)Encoding-Forecasting Structure

1.使用了类似于Encoding-Decoding结构:Encoding-forcasting结构

该结构分为两个网络:编码网络和预测网络。这两个网络的连接方式是预测网络的初始状态是从编码网络的最后一个状态复制过来的(连接方式和Encoding-Decoding结构一样)。这两个网络都是由几层ConvLSTM堆叠起来的

2.预测网络。由于我们的预测目标与输入具有相同的维数,因此将预测网络中的所有状态连接起来,并将它们馈送到 1 × 1卷积层,以生成最终的预测。如果我想预测多个时间步呢? 那么预测端那些的ConvLSTM就可以往上继续堆叠, 水平层上的进行1 * 1卷积之后得出某个时刻的结果,垂直方向进行堆叠,就可以预测很多个时刻。

3.编码网络。编码LSTM将整个输入序列压缩成一个隐藏状态张量,主要作用就是提取序列图像的时间特征和空间特征,然后在预测网络展开这个隐藏状态以给出最终预测。

4.最终的公式就演变为了如下所示:

Experiment:

主要是在两个数据集上做实验:moving-mnist和真实的雷达回波数据集。

得出了以下的结论:

  1. 在处理时空相关性方面,ConvLSTM优于FC-LSTM。
  2. 使状态到状态的卷积核的大小大于1对于捕获时空运动模式至关重要。
  3. 更深的模型可以用更少的参数产生更好的结果。
  4. ConvLSTM在降水临近预报方面的表现优于ROVER。

1)对于Moving-mnist数据集上的实验

所有的模型的均采用cross-entropy交叉熵作为损失函数,用的optimizer为RMSProp, 学习率为0.001并且有0.9的延迟率,并且我们在validation set上采用了 early-stopping整个操作,整体说实话训练的方式是非常传统并且正常的。这里还有个很骚的操作,作者设置一个patchsize,把64乘64的矩阵转换为16乘16乘16的tensor,这个操作我在很多代码中看到了,算是一个时空序列训练的一个小trick。结果如下图

 2)对于真实雷达回波数据集

数据集划分完成剩下的就是训练和评分了。得出来的结论仍然是ConvLSTM比FC-LSTM和光流法都好。

1.优于FC-LSTM的主要原因是:雷达图中的强空间相关性,即云的运动在局部区域高度一致。全连接结构有太多的冗余连接,使得优化不太可能捕获这些局部一致性

2.优于光流法的主要原因是:ConvLSTM能够很好地处理边界条件。在现实生活中的临近预报中,有许多情况是云突然聚集在边界上,这表明一些云是从外面来的。如果ConvLSTM网络在训练期间看到了类似的模式,它可以在编码网络中发现这种类型的突然变化,并在预测网络中给出合理的预测。然而,这很难通过光流和基于半拉格朗日平流的方法来实现。另一个原因是,ConvLSTM是为此任务进行端到端训练的,并且数据集中的一些复杂时空模式可以通过网络的非线性和卷积结构来学习。对于基于光流的方法,很难找到一种合理的方法来更新未来的流场和端到端地训练一切。

Conclusion and Future Work

作者的总结还是回顾了自己总的工作,并且提出了一个关于动作识别的想法。

个人总结:

1.该论文提出了ConvLSTM的结构和Encoding-Forcasting的架构

2.给降雨预测进行了定义:时空序列预测。

3.在时空序列预测方面做了很多baseline的工作,比如数据集的选择和划分,patchsize的使用

完成了论文比较基础的阅读,后续想要完全理解透该论文还需要复现整个算法

本文标签: 序列时空ConvLSTMpapermachine