延边大学学报(自然科学版)

2020, v.46;No.139(03) 215-220

[打印本页] [关闭]
本期目录(Current Issue) | 过刊浏览(Past Issue) | 高级检索(Advanced Search)

基于Bi-LSTM的面部特征与语音特征的映射模型
A mapping model of facial features and speech features based on Bi-LSTM

刘奕;金小峰;

摘要(Abstract):

针对人脸动画技术中的面部特征与语音特征的映射问题,提出了一种基于双向长短时记忆网络(Bi-LSTM)的映射模型学习方法.首先,在训练视频中同步地分别提取语音信号的MFCC参数和视频帧序列中的人脸特征点参数.其次,训练映射模型过程中将MFCC参数作为Bi-LSTM网络的输入,将面部特征参数作为网络的期望输出,并引入参数调优机制对迭代次数、隐层单元数、批处理大小、优化器类型等进行实验调优,以此得到最优的映射模型.对最优映射模型进行实验结果表明,采用双向Bi-LSTM网络明显优于单向的LSTM网络,而且经过参数调优后映射准确率达到0.895;因此,本文方法可以为后续的基于语音驱动的人脸视频合成应用提供有效的人脸特征预测参数.

关键词(KeyWords): 人脸动画;梅尔频率倒谱系数;双向长短时记忆网络;参数调优

Abstract:

Keywords:

基金项目(Foundation): 吉林省教育厅“十三五”科学技术项目(JJKH20191126KJ);; 延边大学世界一流学科建设培育项目(18YLPY14)

作者(Author): 刘奕;金小峰;

Email:

DOI: 10.16379/j.cnki.issn.1004-4353.2020.03.005

参考文献(References):

扩展功能
本文信息
服务与反馈
本文关键词相关文章
本文作者相关文章
中国知网
分享