admin管理员组

文章数量:1660166

光流,GMA
code:https://gitcode/u011622208/GMA

解决的问题:

  • 解决光流估计中被遮挡点的光流估计问题
  • 在RAFT的基础上进行优化改进

解决方案

  • 两帧之间的运动信息,可以通过计算cost volume的匹配信息进行估计
  • 当没有匹配信息时,基于这样一个假设,单个物体(在前景或背景中)的运动通常是均匀的,运动信息必须从其他像素开始传播
  • 同时,对于每个像素理解他属于那个对象。也就是说,非被遮挡的自相似点的运动信息可以传播到被遮挡的点。
  • CNN不适合做全局运动估计,因为CNN时局部的,transformer更适合做全局估计。

1. 网络结构


全局运动假设
为了解决由遮挡引起的模糊性,我们的核心思想是允许网络在更高的层次上进行推理,即全局聚合相似像素的运动特征,并隐含地推断出哪些像素在外观特征空间中是相似的。我们假设,通过在参考坐标系中寻找具有相似外观的点,该网络将能够找到具有相似运动的点。这是由于观察到单个物体上的点的运动通常是均匀的。例如,一个向右跑的人的运动向量偏向于右,即使我们没有看到这个人的大部分由于遮挡而在匹配帧中结束,这也成立。我们可以利用这种统计偏差,将具有高(隐式)置信度的非被遮挡像素的运动信息传播到具有低置信度的被遮挡像素

1.1 全局聚合模块


查询和关键特征是上下文特征图的投影,用于建模第1帧中的外观自相似性。值特征是对运动特征的投影,而运动特征本身是对四维相关体积的编码。利用从查询和关键特征中计算出的注意矩阵来聚合作为运动的隐藏表示的值特征。

以上就是全局聚合特征的计算。 y i y_{i} yi就是RAFT出来的运动特征, α \alpha α是可学习参数。 θ , ϕ , σ \theta, \phi, \sigma θ,ϕ,σ 分别是对查询,键,值的编码函数。 f f f 是相似性计算函数。


其次,以上的全局聚合特征的计算还可以考虑加上位置编码的信息。

或者

P j − i P_{j-i} Pji表示位置编码。

本文标签: 论文estimateHiddenGMALearning