
Audio-Visual Feature Fusion for Video Deepfake Detection
研究背景
随着深度伪造视频内容的迅速增长,我们需要改进且通用性强的方法来检测这些视频。现有的检测方法要么仅使用单模态线索,要么依赖监督训练来捕捉音频和视觉模态之间的不一致性。前者完全忽略了音视频对应关系,而后者主要关注于区分训练语料库中的音视频线索,从而可能忽视那些有助于检测未见过的深度伪造视频的对应关系。
研究意义
本研究提出了一种音视频特征融合(AVFF)方法,通过显式捕捉音频和视觉模态之间的对应关系来改进深度伪造检测。该方法不仅提高了检测性能,还增强了对未见过的深度伪造算法的泛化能力,对于应对日益严重的深度伪造视频威胁具有重要意义。
文献综述
多模态表示学习
SyncNet:使用孪生网络估计音频和视觉模态之间的唇音同步错误。
CLIP:一种零样本图像分类模型,利用单独的编码器对图像和文本进行编码,在潜在空间中找到合适的配对。
AudioCLIP:将CLIP扩展到音频,实现多模态分类。
CAV-MAE:通过对比学习和自动编码目标来学习协调的音视频表示。
深度伪造检测
视觉方法:如LipForensics、FTCN等,依赖视觉伪影来检测深度伪造。
音视频方法:如Emotions Don’t Lie、AV-DFD等,考虑音频和视觉信号来检测深度伪造。
具体方法
本研究提出的AVFF方法包括两个阶段:
表示学习阶段:
使用自监督学习在真实视频上捕捉内在的音视频对应关系。
通过对比学习和自动编码目标,以及一种新颖的音视频互补掩码和特征融合策略来提取丰富的跨模态表示。
深度伪造分类阶段:
利用表示学习阶段训练的编码器和跨模态网络,通过监督学习训练一个分类器来区分真实视频和深度伪造视频。
分类器利用真实视频中音视频的高度对应性以及深度伪造视频中音视频缺乏凝聚力的特点来进行分类。
图1解释
标题:我们使用音视频对应关系进行深度伪造检测
内容:
输入:音频和视频信号。特征编码:使用基于Transformer的编码器提取音频和视频特征标记。互补掩码:对特征标记进行互补掩码处理,即一个模态的可见标记用于预测另一个模态的掩码标记。跨模态解码:可见的音频标记通过可学习的A2V网络预测掩码的视觉标记,反之亦然。特征融合:预测的跨模态标记与原始模态的可见标记融合,得到完整的音视频嵌入。视频重建:使用解码器对掩码标记进行重建,以MAE(Masked Autoencoder)的方式。应用:音视频嵌入用于视频重建和随后的深度伪造分类。图2解释
标题:音视频表示学习阶段
内容:
输入:真实视频样本,包含音频和视觉分量。切片:将音频和视觉标记沿时间维度分割成多个时间片。特征编码:使用单独的音频和视觉编码器对分割后的时间片进行编码。互补掩码:对编码后的特征进行互补掩码处理。跨模态融合:通过AV和VA网络生成跨模态的时间片。解码:使用解码器对掩码的时间片进行重建。损失函数:包括对比损失和自动编码损失,用于训练编码器、AV/VA网络和解码器。公式1用于计算音频和视觉特征嵌入之间的对比损失,以强化两者之间的相似性。其中,N 是样本数量,p 和 q 分别代表音频(a)和视觉(v)模态,$\bar{p}(i)$ 和 $\bar{q}(i)$ 分别是第 i 个样本的音频和视觉嵌入的平均潜在向量,τ 是温度参数。
公式2计算输入(x_p)和重建输出($\hat{x}_p$)之间在掩码位置上的均方误差(MSE)损失。其中,N 是样本数量,p 代表音频或视觉模态,M_p 是掩码,$\odot$ 表示逐元素乘法。
公式3计算生成器在对抗训练中的损失,旨在通过欺骗判别器来优化生成的质量。其中,N 是样本数量,p 代表音频或视觉模态,D_p 是判别器,$\hat{x}_p^{(i)}$ 是重建输出,M_p 是掩码。
公式4计算判别器在对抗训练中的损失,旨在区分真实样本和生成样本。其中,N 是样本数量,p 代表音频或视觉模态,D_p 是判别器,$\hat{x}_p^{(i)}$ 是重建输出,x_p^{(i)}\) 是真实输入,M_p 是掩码。
公式5计算生成器训练的总损失,是对比损失、重建损失和生成器对抗损失的加权和。其中,$\lambda_c$、$\lambda_{rec}$ 和 $\lambda_{adv}$ 分别是各项损失的权重。
图3解释
标题:深度伪造分类阶段
内容:
输入:包含音频和视觉分量的视频样本。特征提取:使用表示学习阶段训练的编码器和跨模态网络提取特征。特征拼接:将单模态特征和跨模态特征拼接。分类器网络:使用拼接后的特征作为输入,通过分类器网络预测视频是真实还是伪造。损失函数:使用交叉熵损失函数进行训练。表1:Intra-Dataset Performance(数据集内性能)
描述:表展示了不同方法在FakeAVCeleb数据集上的准确率(ACC)和曲线下面积(AUC)性能。方法分类:Visual-only Methods(仅视觉方法):如Xception、LipForensics、FTCN、CViT等,这些方法仅使用视觉信号进行检测。Audio-Visual Methods(音视频方法):如Emotions Don’t Lie、MDS、AVFakeNet、VFD、AV oiD-DF以及本文提出的AVFF方法,这些方法结合了音频和视觉信号进行检测。性能对比:AVFF方法在准确率和AUC上均取得了显著优势,分别达到了.%和.%,相比当前最先进的音视频方法AV oiD-DF提高了.%和.%。相比仅视觉方法,音视频方法整体性能更优,表明结合音频和视觉信号对于深度伪造检测的重要性。表2:Cross-Manipulation Generalization(跨操作泛化能力)
描述:表评估了不同方法在FakeAVCeleb数据集上对于未见过的伪造操作的泛化能力。数据集划分:将FakeAVCeleb数据集划分为五个类别,每个类别代表不同的音视频伪造组合,通过留一法进行测试。性能对比:AVFF方法在所有类别上均表现出色,多个类别的AP和AUC接近或达到%。相比其他方法,AVFF在跨伪造操作泛化能力上表现出更强的稳定性和鲁棒性。表3:Cross-Dataset Generalization(跨数据集泛化能力)
描述:表评估了不同方法在KoDF数据集上的性能,以测试模型的跨数据集泛化能力。性能对比:AVFF方法在AP和AUC上均优于其他对比方法,表明其具有良好的跨数据集泛化能力。RealForensics方法表现接近AVFF,但AVFF仍具有微弱优势。图4解释
标题:表示学习阶段结束后嵌入的t-SNE可视化
内容:
可视化:使用t-SNE对表示学习阶段结束后的嵌入进行可视化。区分度:结果显示真实视频和伪造视频的嵌入之间有明显的区分。聚类:不同的伪造算法生成的伪造视频也形成了不同的聚类。分析:表明学习到的表示能够捕捉到区分不同伪造算法的细微线索。