字节PersonaTalk:AI配音再颠覆 每个声音人需了解
先看这段视频:
这段“电影声音网Filmsound.cn”合并的视频有成龙和霉霉,特别是霉霉的视频,在去年也有类似其它AI技术生成的,而字节PersonaTalk的AI又将其吻合度提升了一大截,达到了真正以假乱真的程度。而PersonaTalk是怎么做到的呢?
对于音频驱动的视觉配音,在合成准确的唇形同步的同时维护和突出演讲者的“角色”仍然是一个相当大的挑战,目前的AI视频配音口型技术大致可分为两种,一种是先基于大量数据模型训练,匹配到个人的口型上。缺点是只强调了口型,对面目表情和说话风格都有明显差异。另一种是定制训练,先提供人物视频素材,然后通过训练达到口型的修改。缺点是需要时间长,成本高,对素材品质要求高。这两种都无法更真实的实现面部表情神态的再创造,更多适用于单调、通用的无表情解说类场景应用。
PersonaTalk采用两阶段框架来实现高保真度和个性化的视觉配音。该技术通过风格感知的音频编码模块和双注意力面部渲染器,能够在合成准确的唇形同步的同时,保持和突出说话者的“个性”。它不仅能够捕捉说话者独特的说话风格,还能保留面部细节,这对于音频驱动的视觉配音来说目前还是一个相当大的挑战。
在这个基于注意力的两阶段框架中,在第一阶段,是一种风格感知的音频编码模块,通过交叉注意层将说话风格注入到音频特征中;然后,使用风格化的音频特征来驱动播放模板的几何形状以获得口型同步。
3D面部几何提取:
-
通过使用一个“混合几何估计方法”,将视频中的面部信息转化为3D面部几何数据,包括面部的形状、表情和姿态。
-
这种几何建模让嘴型的生成更加精准,也便于后续渲染个性化面部细节。
音频编码与风格注入:
-
利用预训练的音频编码器,将音频信号转化为特征表示。
-
通过从几何数据中提取的统计特征来学习说话者的个性化风格,并将其嵌入到音频特征中。这一步通过交叉注意力层来实现,使得生成的口型不仅同步,还带有个性化的说话风格。
生成口型同步的几何形状:
基于音频特征和3D几何信息,通过多层交叉注意力和自注意力机制,生成口型同步的面部几何。
在第二阶段,引入双注意力面部渲染器来渲染目标几何形状的纹理。它由两个并行的交叉注意力层组成,即 Lip-Attention 和 Face-Attention,分别从不同的参考帧中采样纹理来渲染整个脸部。通过创新设计,可以很好地保留复杂的面部细节。综合实验和用户研究证明了在视觉质量、口型同步准确性和角色保留方面优于其他最先进方法的优势。
双重注意力机制
(Dual-Attention Mechanism)
-
口部注意力:专注于嘴唇及相关区域的细节渲染,确保嘴型的精确同步和纹理清晰。
-
面部注意力:负责脸部其他部分的细节渲染,如脸颊、皮肤纹理、脸型轮廓等,以保持面部的整体一致性。
-
使用两种注意力机制,分别处理“嘴部”和“面部其他部分”的细节:
参考帧选择策略
-
在渲染过程中,会动态选择多个参考帧来采样嘴部和面部的纹理。为了减少模糊和闪烁现象,口部参考帧的选择会基于嘴巴张开程度排序,而面部参考帧则基于相邻帧的稳定性选择。
纹理解码
(Texture Decoding)
在完成纹理采样后,通过一个几何感知的纹理解码器将面部图像从特征空间解码到像素空间,确保面部细节的高度保真。
请看这两个案例:
作为一个通用框架, PersonaTalk可以像最先进的个人特定方法一样实现有竞争力的表现。
实际效果对比:
作为一个不需要额外训练和微调的方案,PersonaTalk在结果的表现上甚至优于学术界认为最强的定制化训练方案。
声音同步口型:
PersonaTalk能够确保在给视频添加新声音时,人物的嘴部动作与新语音的口型完全匹配。这意味着,无论视频中的人物是说话、微笑还是做出其他面部表情,他们的嘴唇动作都能与新的语音完美同步,就像他们真的在说出那些话一样。
保留人物特点:
在创建新视频内容时,PersonaTalk会尽量保留视频中人物的原有特点,包括他们的说话方式、脸型和表情等。这种保留个性特征的能力,使得使用PersonaTalk技术生成的视频能够保持高度的真实感和自然感,避免出现僵硬或不协调的情况。
适用于不同人物:
与传统的AI配音技术不同,PersonaTalk不需要大量的数据来单独训练每一个特定的人物。这使得该技术能够适应不同的人物和多样化的场景,为视频制作提供了更大的灵活性和便利性。
-
风格感知的音频编码模块:通过交叉注意力层将说话风格注入音频特征。
-
口形同步的几何生成:使用风格化音频特征驱动说话者模板几何形状,以获得唇形同步的几何形状。
-
双注意力面部渲染器:包含两个并行的交叉注意力层,分别从不同的参考帧中采样纹理,以渲染整个面部。
-
高质量的视觉呈现:通过创新设计,能够很好地保留复杂的面部细节,比如牙齿、面部轮廓、肤色、化妆、甚至光照等。
-
多语言翻译支持:能够处理包括英语、中文、德语、法语和日语在内的多种语言。
-
广泛的应用场景:适用于多媒体教学、动画制作和在线课程等多种场景。
“PersonaTalk的目标受众包括视频制作者、动画师、在线教育提供者和多媒体内容创作者。这些用户通常需要将音频内容与人物形象同步,以提高内容的吸引力和专业性。PersonaTalk通过提供高质量的视觉配音,帮助他们创造出更加逼真和个性化的视听体验。”
视频制作者使用PersonaTalk为电影或视频添加逼真的唇形同步和个性化角色。
在线教育平台利用PersonaTalk为教学视频提供多语言配音,以吸引全球学生。
动画创作者使用PersonaTalk为动画角色创建自然和个性化的面部表情和唇形动作。
视频样例:
更多视频案例请点阅读原文或访问网站 https://www.filmsound.cn
1. 访问Github的PersonaTalk网页并下载相关代码。
2. 准备所需的音频文件和目标人物的面部模板。
3. 使用风格感知的音频编码模块处理音频文件,注入说话风格。
4. 利用唇形同步的几何生成模块,根据处理过的音频特征生成唇形同步的几何形状。
5. 使用双注意力面部渲染器渲染目标几何形状的纹理。
6. 调整参数以优化视觉质量、唇形同步准确性和个性保持。
7. 将生成的视觉配音应用到项目中。
仅以学术研究为目的,会严格限制模型的对外开放和使用权限,防止未经授权的恶意利用。
PersonaTalk是配音领域的又一重大如破,对于一部分的动画配音、在线教学、演示直播等应用已经完全达到商业级别,但对于影视及真人的故事类内容,有大量人物及机位移动的这类内容生产目前还是难以胜任,但AI技术的进步速度真的太快了,让我们期待不久以后的更迭进步。