基于多视角手势识别(一)Learning Pose Speciﬁc Representations

编程入门行业动态更新时间:2024-10-06 06:51:36

基于多视角<a href=https://www.elefans.com/category/jswz/34/1752071.html style= 手势识别(一)Learning Pose Speciﬁc Representations"/>

基于多视角手势识别(一)Learning Pose Speciﬁc Representations

基于多视角手势识别(一）

Abstract
1. Introduction
2. Related Work
- 2.1. Semi-supervised learning for hand pose estimation
- 2.2. View synthesis for hand pose estimation
3. Learning pose speciﬁc representations
- 3.1. Implementation of the observations
- 3.2. Learning from labeled and unlabeled data
- 3.3. Implementation details

原文：Learning Pose Speciﬁc Representations by Predicting Different Views
收录：CVPR2018
代码：Pytorch

Abstract

Q1: 这些所需的标记数据（用来学习关节式对象姿态估计）很难提供所需的数量、真实性、密度和准确性。

为了解决这个问题，我们开发了一种方法来学习表征(we develop a method to learn representations)，用来表示一些非常具体的关节姿势，并不需要标记的训练数据。我们利用一个已知对象的姿态来预测的该对象姿态的另一视角图。

也就是说，给出手的姿态和形状参数，从任何角度来看手的外观都是近似相同的，即通过某个手势一个视角的图片，是可以推测该手势另一个视角的图片。为了利用这一观察结果，我们训练了一个模型，将一个视角图作为输入来预测一个潜在的表征，再基于这组潜在的表征来预测输出另一个视角的图片，当另一个视图被捕获时，通过loss可以训练模型。因此，唯一必要的监督就是第二种视角。

该模型的训练 Train 过程揭示了潜在空间中的隐式位姿表征。重要的是，在测试 Test 时，可以仅使用一个视图来推断姿态表征。在定性和定量实验中，我们证明了所学习的表征可以捕获详细的姿态信息。

※论文核心思想：
将一个视角图作为输入来计算出隐式表征 θ，再将隐式表征来预测输出另一个视角的图片，当另一个视图被捕获时，通过损失函数来训练模型。

1. Introduction

对于类似人手这样的关节式对象的姿态估计，给大量的真实数据提供准确的注释是特别昂贵的。应对这一挑战的解决方法则是：与利用label数据做法相反，而是选择去利用易于大量获得的未标记样本来训练（这个方向未被前人探索过）；该文提出了一种通过利用未标记数据的特定属性来进行姿态估计。我们所依赖的观察结果是，位姿参数可以从任何角度预测已知物体的外观。
(手部姿态估计的label样本很少，精确注释的样本则更少，如何应对？)

给定已学习到的低维位姿表征，则可以只用更少的训练样本学习到一个相当简单的映射到一个特定的目标(例如，关节位置)，而不是需要学习从输入到目标的完整映射。此外，当使用带标记和未带标记的数据联合训练时，整个过程可以以半监督的方式进行端到端的学习，从而在带标记的样本较整个样本少一个数量级的情况下也可以获得相似的性能。因此，联合训练对模型进行正则化，则是确保学习的位姿表征可以通过指定的映射映射到目标位姿空间。
(为学习到一个相当简单的映射到一个特定的目标 —> 关节位置)

2. Related Work

传统的手部姿态估计方法分为基于模型的方法和基于数据的方法。

基于模型方法： 在每一帧中搜索以参数化手动创建的手模型，使其最符合观察的模型，但是通常需要依赖于初始化，例如，从以前的帧，因此，如果姿态估计失败一次，问题就很难解决；
基于数据方法： 从输入帧到目标姿态的映射通常是从大量label训练样本中学习，这些方法假定在测试时看到的姿势至少大致被训练集覆盖，否则将无法提供良好的估计。
混合方法： 为了将上面两者的优点结合起来，开发了混合方法，但是，混合方法的有效性又受到可用于训练数据驱动部分的注释密度的严重影响。

2.1. Semi-supervised learning for hand pose estimation

由于很少有研究通过利用未标记的样本进行手部姿态估计，但也有研究是这个方向。

Tang等人利用大的合成训练集以及合成样本与真实样本之间的对应关系，建立了一种判别方法；
Neverova等人通过部分结构的中间表征来建立对应关系；

在上述两个方法中，对于真实样本不需要pixelwise标签，但是仍然需要关节标注。

与此相反，Wan等人利用半监督方法的生成模型的好处，将完全未标定的数据加入到数据集中来。

上面所有方法中，都忽视了一个观察事实：从任何已知的角度看，姿势的外观都能被预测出来。

2.2. View synthesis for hand pose estimation

该文工作受到Oberweger等人工作的启发。

Oberweger等人是从之前估计的关节位置重建手的输入视图，然后根据输入和重建之间的差异生成姿态估计的更新(类似于监督下降法)。

他们的目标是直接从以前估计的关节位置来重建相同的视图(不捕获形状信息)，因此，他们的方法是完全监督的，每个样本需要关节标注

在本文工作中不需要姿态标注，而是利用从一个额外的视角获得的信息，这对训练过程至关重要，我们既不需要迭代过程，也不需要生成图像，在测试时也不需要第二个视图。

3. Learning pose speciﬁc representations

虽然得到的是不同视角的图片，但是是同一手势，所以手势参数 θ 是相同的。根据手部尺寸和形状参数 θ 来预测从视角 i 中观察到的手部外形 x⁽ⁱ⁾。

T：表示一系列的姿态或姿态表征 ( 维度是 R d T R^{d_{T}} RdT)，那么就有 T ⊂ R d T θ ∈ T T \subset R^{d_{T}}\ \ \ \ \theta \in T T⊂RdT θ∈T；
χ \chi χ：代表一系列的输入图像集 ( 输入图像是 d χ d_{\chi } dχ维)，那么就有 χ ⊂ R d χ x ( i ) ∈ χ \chi \subset R^{d_{\chi }}\ \ \ \ x^{(i)}\in \chi χ⊂Rdχ x(i)∈χ。

① 基于我们观察，假设存在某种映射 g i ∗ : R d T → R d χ g_{i}^{*}:R^{d_{T}}\rightarrow R^{d_{\chi }} gi∗:RdT→Rdχ（参数 → \rightarrow →图像）使得：

② 对于 θ 需要从手部图像 x⁽ⁱ⁾ 中获得，因此也需要寻找一个映射 f i ∗ : R d χ → R d T f_{i}^{*}:R^{d_{\chi }}\rightarrow R^{d_{T}} fi∗:Rdχ→RdT（图像 → \rightarrow →参数）使得：

③ 给定上述两个映射，从已知视角 i，输入图像为 x⁽ⁱ⁾，通过映射计算得到一个已知视角 j 的图像 x^(j)：