CVPR2019(二)
51. Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting
目标:从一个损坏的图像恢复损失的区域
应用:老照片恢复,脸部编辑,目标移除,基于图像的渲染等
挑战:
对于高质量的图像修复,视觉和语义可靠性的要求较高
由于缺乏对图像语义的高级理解,基于示例的方法在语义填充方面容易失败
最近基于cnn的方法由于堆叠卷积而倾向于产生模糊纹理
52. Attention-aware Multi-stroke Style Transfer
目标:使用一个单一的可训练模型来传递任意艺术风格
质量:协调内容和程式化图像之间视觉注意的空间分布
泛化:通过一个前馈样式渲染多个画笔笔划
53. GIF2Video: Color Dequantization and Temporal Interpolation of GIF images
本文提出了 GIF2Video,首个基于深度学习提升自然场景下 GIF 成像质量的方法,其主要任务有两个:颜色反量化和帧插值。针对第一个任务,本文给出一个组合性网络架构 CCDNet,并通过综合损失函数训练它,颜色反量化被嵌入于 CCDNet 以指导网络学习和推理。对于第二个任务,本文采用 SuperSlomo 进行变长多帧插值以提升输入 GIF 的时序分辨率。
实验结果表明 GIF2Video 可以通过显著减少量化瑕疵而大幅提升输入 GIF 的成像质量。本文希望该方法可以激发更多灵感,发觉更多方法优化从 GIF 重建视频的任务,比如把图像序列看作一个 3D volume 或者应用循环神经网络提升帧内一致性。
54. An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
目标:基于骨骼的动作识别
输入:骨骼动作序列
输出:动作标签
Motivation:
骨骼数据包含了丰富的空间结构信息
时间连续性不仅存在于相同的关节(例如手,腕和肘)中,还存在于身体结构中
空间域和时域之间存在共存关系
结论:1)AGC-LSTM不仅可以捕获空间配置和时间动态的判别特征,还可以探索空间域和时域之间的共现关系。
2)时态分层架构提高了学习高级语义表示的能力,并显着降低了计算成本。
3)注意机制可以增强每个AGC-LSTM层中关键关节的信息
some conclusion:
(1). cv准则下的效果比cs准则下的效果好,这表明:不同人物在执行相同动作时的差异性比不同视角的差异性要大,即intra-class differences问题,这在其他任务上也比较常见
(2). 基于LSTM的效果不如基于CNN的效果
some preview:
- 基于LSTM的动作识别框架:
- 每一帧的关键点信息(展成一个特定长度的向量,关键点个数*关键点维度)送入LSTM,之后再在时序上对LSTM的输出做融合
- 基于CNN的动作识别框架
- 将skeleton序列表示为一张大小为(序列长度, 关键点个数, 关键点维度)的图像,如一段帧数为32且每帧包含16个关键点的二维信息的序列可以表示为(32, 16, 2)的tensor
[1]. Co-occurrence Feature Learning for Skeleton based Action Recognition using Regularized Deep LSTM Networks
-
什么是Co-occurrence
- 人的某个行为动作常常和骨架的一些特定关节点构成的集合,以及这个集合中节点的交互密切相关。如要判别是否在打电话,关节点“手腕”、“手肘”、“肩膀”和“头”的动作最为关键。不同的行为动作与之密切相关的节点集合有所不同,如对于“走路”的行为动作,“脚腕”、“膝盖”、“臀部”等关节点构成具有判别力的节点集合。我们将这种几个关节点同时影响和决定判别的特性称为共现性(Co-occurrence)
55. What and How You Performed? A Multitask Learning Approach to Action Quality Assessment
AQA涉及量化行动的执行情况
通过利用对行动及其质量的描述,可以改善行动质量评估(AQA)任务的绩效吗?当前的AQA和技能评估方法建议学习仅用于一项任务的特征 - 估计最终得分。在本文中,我们建议学习解释三个相关任务的时空特征 - 细粒度动作识别,评论生成和估计AQA分数。一个迄今为止最大的包括1412个潜水样本的多任务AQA数据集()用于评估我们的方法。我们展示了我们的MTL方法优于使用两种不同架构的STL方法:C3D-AVG和MSCADC。 C3D-AVG-MTL方法实现了新的最先进性能,等级相关性为90.44%。进行详细的实验以显示MTL提供比STL更好的概括,并且来自动作识别模型的表示不足以用于AQA任务,而是应该学习。
56. Towards High-fidelity Nonlinear 3D Face Morphable Model<
更多推荐
CVPR2019(二)
发布评论