用DensePose,教照片里的人学跳舞,系群体鬼畜 | ECCV 2018

原标题:【ECCV
2018】Facebook开发姿态转换模型,只需一张照片就能让它跳舞(视频)

原标题:用DensePose,教照片里的人学跳舞,系群体鬼畜 | ECCV 2018

图片 1

栗子 发自 凹非寺

倒计时**10**天

图片 2

怎样让一个面朝镜头静止不动的妹子,跳起你为她选的舞蹈,把360度身姿全面呈现?

来源:ECCV 2018

Facebook团队,把负责感知的多人姿势识别模型DensePose,与负责生成深度生成网络结合起来。

编辑:肖琴

不管是谁的感人姿势,都能附体到妹子身上,把她单一的静态,变成丰富的动态。

【新智元导读】DensePose团队在ECCV
2018发表又一杰作:密集人体姿态转换!这是一个基于DensePose的姿势转换系统,仅根据一张输入图像和目标姿势,生成数字人物的动画效果。

图片 3

DensePose 是 Facebook 研究员 Natalia
Neverova、Iasonas Kokkinos 和法国 INRIA 的 Rıza Alp Guler
开发的一个令人惊叹的人体实时姿势识别系统,它在 2D 图像和人体3D
模型之间建立映射,最终实现密集人群的实时姿态识别。

这项研究成果,入选了ECCV 2018

具体来说,DensePose 利用深度学习将 2D RPG
图像坐标映射到 3D 人体表面,把一个人分割成许多 UV 贴图(UV
坐标),然后处理密集坐标,实现动态人物的精确定位和姿态估计。

当然不能只有DensePose

图片 4

团队把SMPL多人姿态模型,跟DensePose结合到一起。这样一来,就可以用一个成熟的表面模型来理解一张图片。

DensePose
模型以及数据集已经开源,传送门:

这项研究,是用基于表面的神经合成,是在闭环里渲染一张图像,生成各种新姿势。

图片 5

最近,该团队更进一步,发布了基于
DensePose 的一个姿势转换系统:Dense Pose Transfer,仅根据一张输入图像和目标姿势,创造出
“数字化身” 的动画效果。

左为源图像,中为源图姿势,右为目标姿势

图片 6

照片中人需要学习的舞姿,来自另一个人的照片,或者视频截图。

在这项工作中,研究者希望仅依赖基于表面(surface-based)的对象表示(object
representations),类似于在图形引擎中使用的对象表示,来获得对图像合成过程的更强把握。

DensePose系统,负责把两张照片关联起来。具体方法是,在一个公共表面UV坐标系
(common surface coordinates) 里,给两者之间做个映射

研究者关注的重点是人体。模型建立在最近的 SMPL 模型和 DensePose
系统的基础上,将这两个系统结合在一起,从而能够用完整的表面模型来说明一个人的图像。

但如果单纯基于几何来生成,又会因为DensePose采集数据不够准确,还有图像里的自我遮挡
(比如身体被手臂挡住) ,而显得不那么真实。

下面的视频展示了更多生成结果:

图片 7

具体而言,这项技术是通过 surface-based
的神经合成,渲染同一个人的不同姿势,从而执行图像生成。目标姿势(target
pose)是通过一个 “pose donor”
的图像表示的,也就是指导图像合成的另一个人。DensePose
系统用于将新的照片与公共表面坐标相关联,并复制预测的外观。

DensePose提取的质地 (左) vs 修复后的质地 (右)

我们在 DeepFashion 和 MVC
数据集进行了实验,结果表明我们可以获得比最新技术更好的定量结果。

那么,团队处理遮挡的方法是,在表面坐标系里,引入一个图像修复(Impainting)
网络。把这个网络的预测结果,和一个更传统的前馈条件和成模型预测结合起来。

除了姿势转换的特定问题外,所提出的神经合成与
surface-based
的表示相结合的方法也有希望解决虚拟现实和增强现实的更广泛问题:由于
surface-based
的表示,合成的过程更加透明,也更容易与物理世界连接。未来,姿势转换任务可能对数据集增强、训练伪造检测器等应用很有用。

这些预测是各自独立进行的,然后再用一个细化模块来优化预测结果。把重构损失对抗损失感知损失结合起来,优势互补,得出最终的生成效果。

Dense Pose Transfer

图片 8

研究人员以一种高效的、自下而上的方式,将每个人体像素与其在人体参数化的坐标关联起来,开发了围绕
DensePose 估计系统进行姿势转换的方法。

完整的网络结构,就如上图这般。

我们以两种互补的方式利用 DensePose
输出,对应于预测模块和变形模块(warping module),如图 1 所示。

监督学习一下

图片 9

模型的监督学习过程,是这样的:

图 1:pose transfer pipeline
的概览:给定输入图像和目标姿势,使用 DensePose 来执行生成过程。

图片 10

变形模块使用 DensePose
表面对应和图像修复(inpainting)来生成人物的新视图,而预测模块是一个通用的黑盒生成模型,以输入和目标的
DensePose 输出作为条件。

从输入的源图像开始,先把它的每个像素对应到UV坐标系里。这一步是DensePose驱动的迁移网络完成的。

这两个模块具有互补的优点:预测模块成功地利用密集条件输出来为熟悉的姿势生成合理的图像;但它不能推广的新的姿势,或转换纹理细节。

然后,负责修复图像的自编码器,就来预测照片中人的不同角度会是什么样子。这步预测,也是在扭曲的坐标系里完成的。

发表评论

电子邮件地址不会被公开。 必填项已用*标注