基于LSTM-CBAM的音视频同步人脸视频生成|电子爱好者

admin管理员组
文章数量:1567752

2024年5月10日发(作者：)

第１３卷　第５期

Ｖｏｌ．１３Ｎｏ．５　

智　能　计　算　机　与　应　用

ＩｎｔｅｌｌｉｇｅｎｔＣｏｍｐｕｔｅｒａｎｄＡｐｐｌｉｃａｔｉｏｎｓ

中图分类号：ＴＰ３９１；ＴＰ１８３

　２０２３年５月

　Ｍａｙ２０２３

文章编号：２０９５

－

２１６３（２０２３）０５

－

０１５１

－

０５

文献标志码：Ａ

基于ＬＳＴＭ

－

ＣＢＡＭ的音视频同步人脸视频生成

洪学敏，张海翔

（浙江理工大学信息学院，杭州３１００１８）

摘　要：语音驱动的人脸视频生成是指通过视觉与听觉双模态的输入来生成唇音同步的高自然度人脸视频。人脸视频生成

任务的主要挑战是如何在保证人脸面部真实性的同时，生成语音同步且连贯的人脸视频。传统方法仅将其考虑为多个单帧

的视频生成，而不考虑视频帧间的时序关系，从而导致生成的视频存在不连贯性，容易出现像素抖动问题。本文提出了基于

ＬＳＴＭ

－

ＣＢＡＭ的音视频同步生成模型来生成唇音同步的人脸视频，通过ＬＳＴＭ模块处理音频数据，可以对音频数据进行更好

地特征编码，通过ＣＢＡＭ模块来推断网络中的注意力映射，可以实现对音频信息与人脸口型信息的特征细化，从而生成音频

与人物口型同步的视频。实验结果表明，本文生成的人脸视频连续自然，指标较优。

关键词：视频生成；语音驱动；生成式对抗网络

ＬＳＴＭ

－

ＣＢＡＭ

－

ｂａｓｅｄａｕｄｉｏａｎｄｖｉｄｅｏｓｙｎｃｈｒｏｎｉｚａｔｉｏｎｆａｃｅｖｉｄｅｏｇｅｎｅｒａｔｉｏｎ

ＨＯＮＧＸｕｅｍｉｎ，ＺＨＡＮＧＨａｉｘｉａｎｇ

（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＺｈｅｊｉａｎｇＳｃｉ

－

ＴｅｃｈＵｎｉｖｅｒｓｉｔｙ，Ｈａｎｇｚｈｏｕ３１００１８，Ｃｈｉｎａ）

【Ａｂｓｔｒａｃｔ】Ｓｐｅｅｃｈ

－

ｄｒｉｖｅｎｆａｃｅｖｉｄｅｏｇｅｎｅｒａｔｉｏｎｉｓａｈｉｇｈｎａｔｕｒａｌｎｅｓｓｆａｃｅｖｉｄｅｏｗｉｔｈｌａｂｉａｌｓｙｎｃｈｒｏｎｉｚａｔｉｏｎｔｈｒｏｕｇｈｖｉｓｕａｌａｎｄ

ａｕｄｉｔｏｒｙｄｕａｌｍｏｄｅｉｎｐｕｔ．Ｔｈｅｍａｉｎｃｈａｌｌｅｎｇｅｏｆｆａｃｅｖｉｄｅｏｇｅｎｅｒａｔｉｏｎｔａｓｋｉｓｈｏｗｔｏｇｅｎｅｒａｔｅｖｏｉｃｅｓｙｎｃｈｒｏｎｏｕｓａｎｄｃｏｈｅｒｅｎｔｆａｃｅ

ｖｉｄｅｏｗｈｉｌｅｅｎｓｕｒｉｎｇｆａｃｅａｕｔｈｅｎｔｉｃｉｔｙ．Ｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｓｏｎｌｙｃｏｎｓｉｄｅｒｉｔａｓｍｕｌｔｉｐｌｅｓｉｎｇｌｅ

－

ｆｒａｍｅｖｉｄｅｏｇｅｎｅｒａｔｉｏｎｗｉｔｈｏｕｔ

ｃｏｎｓｉｄｅｒｉｎｇｔｈｅｓｅｑｕｅｎｃｅｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｖｉｄｅｏｆｒａｍｅｓ，ｗｈｉｃｈｌｅａｄｓｔｏｔｈｅｉｎｃｏｎｓｉｓｔｅｎｃｙｏｆｔｈｅｇｅｎｅｒａｔｅｄｖｉｄｅｏａｎｄｔｈｅｐｒｏｂｌｅｍｏｆ

ｐｉｘｅｌｊｉｔｔｅｒ．ＷｅｐｒｏｐｏｓｅａｎａｕｄｉｏａｎｄｖｉｄｅｏｓｙｎｃｈｒｏｎｉｚａｔｉｏｎｇｅｎｅｒａｔｉｏｎｍｏｄｅｌｂａｓｅｄｏｎＬＳＴＭ

－

ＣＢＡＭｔｏｇｅｎｅｒａｔｅｌａｂｉａｌ

ｓｙｎｃｈｒｏｎｉｚａｔｉｏｎｆａｃｅｖｉｄｅｏ．ＬＳＴＭｍｏｄｕｌｅｉｓｕｓｅｄｔｏｐｒｏｃｅｓｓａｕｄｉｏｄａｔａ，ａｎｄｂｅｔｔｅｒｆｅａｔｕｒｅｃｏｄｉｎｇｃａｎｂｅｐｅｒｆｏｒｍｅｄｏｎａｕｄｉｏｄａｔａ．

ＣＢＡＭｍｏｄｕｌｅｉｓｕｓｅｄｔｏｉｎｆｅｒａｔｔｅｎｔｉｏｎｍａｐｐｉｎｇｉｎｔｈｅｎｅｔｗｏｒｋ．Ｉｔｃａｎｒｅａｌｉｚｅｔｈｅｆｅａｔｕｒｅｒｅｆｉｎｅｍｅｎｔｏｆａｕｄｉｏｉｎｆｏｒｍａｔｉｏｎａｎｄｆａｃｅ

－

ｍｏｕｔｈ

－

ｓｈａｐｅｉｎｆｏｒｍａｔｉｏｎ，ｓｏａｓｔｏｇｅｎｅｒａｔｅａｕｄｉｏａｎｄｍｏｕｔｈ

－

ｓｈａｐｅｓｙｎｃｈｒｏｎｉｚａｔｉｏｎｖｉｄｅｏ．ＱｕａｎｔｉｔａｔｉｖｅｅｘｐｅｒｉｍｅｎｔｓｏｎＬＲＳ２ｄａｔａ

ｓｅｔｓｈｏｗｔｈａｔｔｈｅｆａｃｅｖｉｄｅｏｇｅｎｅｒａｔｅｄｉｎｔｈｉｓｐａｐｅｒｉｓｎａｔｕｒａｌａｎｄｃｏｎｔｉｎｕｏｕｓ，ａｎｄｔｈｅｉｎｄｅｘｉｓｂｅｔｔｅｒ．

【Ｋｅｙｗｏｒｄｓ】Ｖｉｄｅｏｇｅｎｅｒａｔｉｏｎ；ｓｐｅｅｃｈｄｒｉｖｅｎ；ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ

０　引　言

在日常生活中，听觉和视觉是人类最主要的沟

通方式，这两种信号之间有着密不可分的联系，两者

之间可以互相提供丰富的特征信息。例如，在人与

人之间交流时，面部表情、说话口型、头部和身体动

作可以有效提高信息的可理解性。根据研究，人与

人之间的交流有３种方式：文字信息、语音信息和动

作信息。其中文字信息占７％，语音信息占３９％，动

作信息占５４％。与文字信息、普通语音信息相比，

动作信息与语音信息的共同输入可以更好地提高人

类互动交流的感受。因此，利用听觉与视觉双模态

的数据输入进行跨模态学习来生成基于语音驱动的

说话人脸视频成为目前的一大热门研究课题。

语音驱动的人脸视频生成具体实现过程就是输

入一段人脸视频和一段音频，利用神经网络进行特

征编码，使得神经网络不断学习音频特征和视频特

征，从而生成新的与音频相匹配的说话人脸视频。

其研究目的是为了挖掘音频特征与人脸之间的关联

性，单张静态人脸图像之间有年龄、性别等多种属性

关联

［１］

，连续多张动态人脸图像之间人脸嘴唇具有

同步性，这意味着要求生成的说话人脸视频要自然

真实，输入的语音要与生成的说话人脸视频口型一

致。因此，语音驱动说话人脸视频生成方法需要综

作者简介：洪学敏（１９９６

－

），女，硕士研究生，主要研究方向：计算机视觉；张海翔（１９７３

－

），男，博士，副教授，主要研究方向：计算机视频图像处

理、计算机视觉、深度几何学习方法。

通讯作者：张海翔　　Ｅｍａｉｌ：ｚｈｈｘ＠ｚｓｔｕ．ｅｄｕ．ｃｎ

收稿日期：２０２０

－

０５

－

２９

哈尔滨工业大学主办

本文标签：视频生成人脸特征方法

版权声明：本文标题：基于LSTM-CBAM的音视频同步人脸视频生成内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1715314928a445896.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

基于LSTM-CBAM的音视频同步人脸视频生成

更多相关文章

使用APP上传视频接口上传视频

Windows下Qt4的安装方法及安装包（百度云）下载

【视频文稿】车载Android应用开发与分析 - AOSP的下载与编译

【RStudio】【安装&amp;卸载程序包】【四种方法】

（超详细）JAVA SE开发工具包（JDK）在Windows系统中的下载、安装和配置的方法

华硕ROG枪神6plus原装Windows11预装系统 工厂模式恢复安装带ASUSRecevory一键还原安装还原方法

Playwright直接控制本地Chrome浏览器的方法

chrome浏览器拦截(block)特定网站某些请求的方法

u盘插入linux系统没有反应_Linux系统下无法自动识别U盘的处理方法

iPhone如何连接U盘呢 iphone连接u盘方法教程

VBA开发Office 2007 Ribbon的方法

猫咪视频_猫视频如何进入您的手机

win10分辨率不能调整_win10系统桌面图标太大如何缩小 win10系统将桌面图标缩小的方法...

win10计算机怎么显示桌面,win10如何显示我的电脑在桌面?教您显示的方法

win10edge启用html5,Win 10 Edge浏览器极速运行的设置方法

Win10(19031909版本)关闭Windows defender的方法

win10软件拒绝访问删不掉_进程拒绝访问怎么结束_win10关闭进程拒绝访问的处理方法...

计算机频繁读写硬盘可能存在,win10电脑空闲时刻会偷偷读写硬盘的处理方法

microsoftstore连不上网_win10应用商店无法联网怎么办_解决win10商店连不上网的方法...

计算机热启动方法,关于电脑热启动的介绍

发表评论

推荐文章

谷歌浏览器Chrome播放rtsp实时视频，并抓图、录像、回放、倍速等

《ESP32调试异常集锦》之：EspTouch配网时wifi密码输入错误，程序联网一直死循环

AutoCAD2024保姆级详细安装教程+官方中文正版安装包（永久使用）

疯狂的程序员 31-40

学习SQL Server这一篇就够了

热门文章

在天翼云服务器部署程序不能被外网访问的问题

PS3手柄连接斐讯T1盒子

Chrome浏览器自带谷歌翻译用不了的解决方法

安装Catia显示无法启动服务器,win10catia r20应用程序无法正常启动的解决办法

vs应用程序无法正常启动

【CAD动态】CrownCAD为中国制造开启云端CAD设计全新模式

Chrome浏览器http访问跨越问题与解决方法

KMS Activation for Windows Server 2019

VBA技术资料MF180：将某个文件夹中的某类图片导入Word

win10各版本的历史记录

最新文章

新鲜的Win1110镜像，全系列下载！

macOS Sequoia 15 beta 6 (24A5320a) Boot ISO 原版可引导镜像下载

制作系统安装盘教程——烧录Windows原版镜像

VMware 安装Windows Server 2008 R2

Windows Server 2022服务器版20348.169简体中文、英文版2021年8月官方镜像资源

Acer宏碁暗影骑士擎AN515-57笔记本电脑原装出厂Windows10Win11系统ISO镜像工厂模式安装包下载

EXSI无法引导安装ISO镜像问题

macOS Monterey 12.6 (21G115) Boot ISO 原版可引导镜像

macOS Sequoia 15.0 (24A335) Boot ISO 原版可引导镜像下载

macOS Ventura 13.7 (22H123) Boot ISO 原版可引导镜像下载

Windows11系统映像

Windows纯净版ISO文件官方链接下载

macOS Sonoma 14.7 (23H124) Boot ISO 原版可引导镜像下载

在Docker中使用Dockerfile实现ISO文件转化为完整版Centos镜像，并搭建集群数据仓库

安装系统 镜像 ISO

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

【RStudio】【安装&卸载程序包】【四种方法】

华硕ROG枪神6plus原装Windows11预装系统工厂模式恢复安装带ASUSRecevory一键还原安装还原方法

安装系统镜像 ISO

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载