MABC



介绍

本算法的输入是一个带有音频的视频,将音视频的特征提取后经过编码,
然后通过一个由自注意力和跨模态注意力构成的混注意力网络联合学习音视频的特征。
将联合学习后的音视频特征采用边界匹配的方法分别生成伪造边界提议图,
并通过一定的权重融合,获得整个视频的伪造边界提议图,最终通过软非极大抑制
去除重复的提议,最后给出概率最高的伪造时间段,如果概率大于某个阈值,
则判断该时间段内视频经过伪造。