admin管理员组

文章数量:1567752

2024年5月10日发(作者:)

第13卷 第5期

Vol.13No.5 

 

智 能 计 算 机 与 应 用

IntelligentComputerandApplications

中图分类号:TP391;TP183

 

 2023年5月

 May2023

文章编号:2095

2163(2023)05

0151

05

      

文献标志码:A

基于LSTM

CBAM的音视频同步人脸视频生成

洪学敏,张海翔

(浙江理工大学信息学院,杭州310018)

摘 要:语音驱动的人脸视频生成是指通过视觉与听觉双模态的输入来生成唇音同步的高自然度人脸视频。人脸视频生成

任务的主要挑战是如何在保证人脸面部真实性的同时,生成语音同步且连贯的人脸视频。传统方法仅将其考虑为多个单帧

的视频生成,而不考虑视频帧间的时序关系,从而导致生成的视频存在不连贯性,容易出现像素抖动问题。本文提出了基于

LSTM

CBAM的音视频同步生成模型来生成唇音同步的人脸视频,通过LSTM模块处理音频数据,可以对音频数据进行更好

地特征编码,通过CBAM模块来推断网络中的注意力映射,可以实现对音频信息与人脸口型信息的特征细化,从而生成音频

与人物口型同步的视频。实验结果表明,本文生成的人脸视频连续自然,指标较优。

关键词:视频生成;语音驱动;生成式对抗网络

LSTM

CBAM

basedaudioandvideosynchronizationfacevideogeneration

HONGXuemin,ZHANGHaixiang

(SchoolofInformationScienceandTechnology,ZhejiangSci

TechUniversity,Hangzhou310018,China)

【Abstract】Speech

drivenfacevideogenerationisahighnaturalnessfacevideowithlabialsynchronizationthroughvisualand

auditorydualmodeinput.Themainchallengeoffacevideogenerationtaskishowtogeneratevoicesynchronousandcoherentface

videowhileensuringfaceauthenticity.Traditionalmethodsonlyconsideritasmultiplesingle

framevideogenerationwithout

consideringthesequencerelationbetweenvideoframes,whichleadstotheinconsistencyofthegeneratedvideoandtheproblemof

pixeljitter.WeproposeanaudioandvideosynchronizationgenerationmodelbasedonLSTM

CBAMtogeneratelabial

synchronizationfacevideo.LSTMmoduleisusedtoprocessaudiodata,andbetterfeaturecodingcanbeperformedonaudiodata.

CBAMmoduleisusedtoinferattentionmappinginthenetwork.Itcanrealizethefeaturerefinementofaudioinformationandface

mouth

shapeinformation,soastogenerateaudioandmouth

shapesynchronizationvideo.QuantitativeexperimentsonLRS2data

setshowthatthefacevideogeneratedinthispaperisnaturalandcontinuous,andtheindexisbetter.

【Keywords】Videogeneration;speechdriven;generativeadversarialnetwork

0 引 言

在日常生活中,听觉和视觉是人类最主要的沟

通方式,这两种信号之间有着密不可分的联系,两者

之间可以互相提供丰富的特征信息。例如,在人与

人之间交流时,面部表情、说话口型、头部和身体动

作可以有效提高信息的可理解性。根据研究,人与

人之间的交流有3种方式:文字信息、语音信息和动

作信息。其中文字信息占7%,语音信息占39%,动

作信息占54%。与文字信息、普通语音信息相比,

动作信息与语音信息的共同输入可以更好地提高人

类互动交流的感受。因此,利用听觉与视觉双模态

的数据输入进行跨模态学习来生成基于语音驱动的

说话人脸视频成为目前的一大热门研究课题。

语音驱动的人脸视频生成具体实现过程就是输

入一段人脸视频和一段音频,利用神经网络进行特

征编码,使得神经网络不断学习音频特征和视频特

征,从而生成新的与音频相匹配的说话人脸视频。

其研究目的是为了挖掘音频特征与人脸之间的关联

性,单张静态人脸图像之间有年龄、性别等多种属性

关联

[1]

,连续多张动态人脸图像之间人脸嘴唇具有

同步性,这意味着要求生成的说话人脸视频要自然

真实,输入的语音要与生成的说话人脸视频口型一

致。因此,语音驱动说话人脸视频生成方法需要综

作者简介:洪学敏(1996

),女,硕士研究生,主要研究方向:计算机视觉;张海翔(1973

),男,博士,副教授,主要研究方向:计算机视频图像处

理、计算机视觉、深度几何学习方法。

通讯作者:张海翔  Email:zhhx@zstu.edu.cn

收稿日期:2020

05

29

哈尔滨工业大学主办

本文标签: 视频生成人脸特征方法