CVPR2019(二)

编程入门 行业动态 更新时间:2024-10-07 06:38:18

CVPR2019(二)

CVPR2019(二)

51. Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting

目标:从一个损坏的图像恢复损失的区域
应用:老照片恢复,脸部编辑,目标移除,基于图像的渲染等
挑战:
对于高质量的图像修复,视觉和语义可靠性的要求较高
由于缺乏对图像语义的高级理解,基于示例的方法在语义填充方面容易失败
最近基于cnn的方法由于堆叠卷积而倾向于产生模糊纹理

52. Attention-aware Multi-stroke Style Transfer

目标:使用一个单一的可训练模型来传递任意艺术风格
质量:协调内容和程式化图像之间视觉注意的空间分布
泛化:通过一个前馈样式渲染多个画笔笔划

53. GIF2Video: Color Dequantization and Temporal Interpolation of GIF images

本文提出了 GIF2Video,首个基于深度学习提升自然场景下 GIF 成像质量的方法,其主要任务有两个:颜色反量化和帧插值。针对第一个任务,本文给出一个组合性网络架构 CCDNet,并通过综合损失函数训练它,颜色反量化被嵌入于 CCDNet 以指导网络学习和推理。对于第二个任务,本文采用 SuperSlomo 进行变长多帧插值以提升输入 GIF 的时序分辨率。

实验结果表明 GIF2Video 可以通过显著减少量化瑕疵而大幅提升输入 GIF 的成像质量。本文希望该方法可以激发更多灵感,发觉更多方法优化从 GIF 重建视频的任务,比如把图像序列看作一个 3D volume 或者应用循环神经网络提升帧内一致性。

54. An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition

目标:基于骨骼的动作识别

输入:骨骼动作序列

输出:动作标签

Motivation:

骨骼数据包含了丰富的空间结构信息
时间连续性不仅存在于相同的关节(例如手,腕和肘)中,还存在于身体结构中
空间域和时域之间存在共存关系

结论:1)AGC-LSTM不仅可以捕获空间配置和时间动态的判别特征,还可以探索空间域和时域之间的共现关系。
2)时态分层架构提高了学习高级语义表示的能力,并显着降低了计算成本。
3)注意机制可以增强每个AGC-LSTM层中关键关节的信息

some conclusion:

(1). cv准则下的效果比cs准则下的效果好,这表明:不同人物在执行相同动作时的差异性比不同视角的差异性要大,即intra-class differences问题,这在其他任务上也比较常见

(2). 基于LSTM的效果不如基于CNN的效果

some preview:

  • 基于LSTM的动作识别框架:
    • 每一帧的关键点信息(展成一个特定长度的向量,关键点个数*关键点维度)送入LSTM,之后再在时序上对LSTM的输出做融合
  • 基于CNN的动作识别框架
    • 将skeleton序列表示为一张大小为(序列长度, 关键点个数, 关键点维度)的图像,如一段帧数为32且每帧包含16个关键点的二维信息的序列可以表示为(32, 16, 2)的tensor

[1]. Co-occurrence Feature Learning for Skeleton based Action Recognition using Regularized Deep LSTM Networks

  • 什么是Co-occurrence

    • 人的某个行为动作常常和骨架的一些特定关节点构成的集合,以及这个集合中节点的交互密切相关。如要判别是否在打电话,关节点“手腕”、“手肘”、“肩膀”和“头”的动作最为关键。不同的行为动作与之密切相关的节点集合有所不同,如对于“走路”的行为动作,“脚腕”、“膝盖”、“臀部”等关节点构成具有判别力的节点集合。我们将这种几个关节点同时影响和决定判别的特性称为共现性(Co-occurrence)

55. What and How You Performed? A Multitask Learning Approach to Action Quality Assessment

AQA涉及量化行动的执行情况

通过利用对行动及其质量的描述,可以改善行动质量评估(AQA)任务的绩效吗?当前的AQA和技能评估方法建议学习仅用于一项任务的特征 - 估计最终得分。在本文中,我们建议学习解释三个相关任务的时空特征 - 细粒度动作识别,评论生成和估计AQA分数。一个迄今为止最大的包括1412个潜水样本的多任务AQA数据集()用于评估我们的方法。我们展示了我们的MTL方法优于使用两种不同架构的STL方法:C3D-AVG和MSCADC。 C3D-AVG-MTL方法实现了新的最先进性能,等级相关性为90.44%。进行详细的实验以显示MTL提供比STL更好的概括,并且来自动作识别模型的表示不足以用于AQA任务,而是应该学习。

56. Towards High-fidelity Nonlinear 3D Face Morphable Model<

更多推荐

CVPR2019(二)

本文发布于:2024-02-13 20:28:01,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1760169.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!