CVPR2019（二）

编程入门行业动态更新时间:2024-10-07 06:38:18

CVPR2019（二）

51. Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting

目标：从一个损坏的图像恢复损失的区域
应用：老照片恢复，脸部编辑，目标移除，基于图像的渲染等
挑战：
对于高质量的图像修复，视觉和语义可靠性的要求较高
由于缺乏对图像语义的高级理解，基于示例的方法在语义填充方面容易失败
最近基于cnn的方法由于堆叠卷积而倾向于产生模糊纹理

52. Attention-aware Multi-stroke Style Transfer

目标：使用一个单一的可训练模型来传递任意艺术风格
质量：协调内容和程式化图像之间视觉注意的空间分布
泛化：通过一个前馈样式渲染多个画笔笔划

53. GIF2Video: Color Dequantization and Temporal Interpolation of GIF images

本文提出了 GIF2Video，首个基于深度学习提升自然场景下 GIF 成像质量的方法，其主要任务有两个：颜色反量化和帧插值。针对第一个任务，本文给出一个组合性网络架构 CCDNet，并通过综合损失函数训练它，颜色反量化被嵌入于 CCDNet 以指导网络学习和推理。对于第二个任务，本文采用 SuperSlomo 进行变长多帧插值以提升输入 GIF 的时序分辨率。

实验结果表明 GIF2Video 可以通过显著减少量化瑕疵而大幅提升输入 GIF 的成像质量。本文希望该方法可以激发更多灵感，发觉更多方法优化从 GIF 重建视频的任务，比如把图像序列看作一个 3D volume 或者应用循环神经网络提升帧内一致性。

54. An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition

目标：基于骨骼的动作识别

输入：骨骼动作序列

输出：动作标签

Motivation：

骨骼数据包含了丰富的空间结构信息
时间连续性不仅存在于相同的关节（例如手，腕和肘）中，还存在于身体结构中
空间域和时域之间存在共存关系

结论：1）AGC-LSTM不仅可以捕获空间配置和时间动态的判别特征，还可以探索空间域和时域之间的共现关系。
2）时态分层架构提高了学习高级语义表示的能力，并显着降低了计算成本。
3）注意机制可以增强每个AGC-LSTM层中关键关节的信息

some conclusion：

(1). cv准则下的效果比cs准则下的效果好，这表明：不同人物在执行相同动作时的差异性比不同视角的差异性要大，即intra-class differences问题，这在其他任务上也比较常见

(2). 基于LSTM的效果不如基于CNN的效果

some preview:

基于LSTM的动作识别框架：
- 每一帧的关键点信息(展成一个特定长度的向量，关键点个数*关键点维度)送入LSTM，之后再在时序上对LSTM的输出做融合
基于CNN的动作识别框架
- 将skeleton序列表示为一张大小为(序列长度, 关键点个数, 关键点维度)的图像，如一段帧数为32且每帧包含16个关键点的二维信息的序列可以表示为(32, 16, 2)的tensor

[1]. Co-occurrence Feature Learning for Skeleton based Action Recognition using Regularized Deep LSTM Networks

什么是Co-occurrence
- 人的某个行为动作常常和骨架的一些特定关节点构成的集合，以及这个集合中节点的交互密切相关。如要判别是否在打电话，关节点“手腕”、“手肘”、“肩膀”和“头”的动作最为关键。不同的行为动作与之密切相关的节点集合有所不同，如对于“走路”的行为动作，“脚腕”、“膝盖”、“臀部”等关节点构成具有判别力的节点集合。我们将这种几个关节点同时影响和决定判别的特性称为共现性（Co-occurrence）

55. What and How You Performed? A Multitask Learning Approach to Action Quality Assessment

AQA涉及量化行动的执行情况

通过利用对行动及其质量的描述，可以改善行动质量评估（AQA）任务的绩效吗？当前的AQA和技能评估方法建议学习仅用于一项任务的特征 - 估计最终得分。在本文中，我们建议学习解释三个相关任务的时空特征 - 细粒度动作识别，评论生成和估计AQA分数。一个迄今为止最大的包括1412个潜水样本的多任务AQA数据集（）用于评估我们的方法。我们展示了我们的MTL方法优于使用两种不同架构的STL方法：C3D-AVG和MSCADC。 C3D-AVG-MTL方法实现了新的最先进性能，等级相关性为90.44％。进行详细的实验以显示MTL提供比STL更好的概括，并且来自动作识别模型的表示不足以用于AQA任务，而是应该学习。