×

cvpr 2024|无需反向传播的3D测试时自适应网络

hqy hqy 发表于2025-07-04 08:33:45 浏览2 评论0百度已收录

抢沙发发表评论

Backpropagation-free Network for 3D Test-time Adaptation

研究背景

随着3D传感器技术的不断发展,3D点云处理在自动驾驶、机器人视觉、医疗影像等领域得到了广泛应用。然而,现实世界中的系统经常会遇到新的数据分布,导致目标域偏移。传统的训练方法在这种动态变化的环境中表现不佳,因为它们通常假设训练数据和测试数据来自相同的分布。为了解决这一问题,测试时自适应(Test-Time Adaptation, TTA)方法应运而生,旨在在测试时利用未标记的测试数据快速调整模型,以适应新的目标域。

研究意义

传统的TTA方法往往依赖于计算密集且内存占用大的反向传播过程,这限制了它们在实时应用中的性能。此外,这些方法还可能引入伪标签噪声和累积误差。因此,研究一种无需反向传播的TTA方法对于提高3D点云处理系统的实时性和鲁棒性具有重要意义。本研究提出了一种无需反向传播的3D TTA方法(BFTT3D),该方法通过非参数网络和子空间学习来适应新的目标域,有效避免了反向传播的复杂性和伪标签噪声问题。

文献综述

点云域适应

点云域适应旨在减小源域和目标域之间的分布差异,以提高模型在目标域上的性能。现有方法主要分为两大类:有监督域适应和无监督域适应。有监督域适应方法需要源域标签信息,而无监督域适应方法则不依赖源域标签。然而,这些方法在处理动态变化的环境时仍存在局限性。

测试时域适应

测试时域适应是一种在测试时利用未标记测试数据来适应新目标域的方法。它不需要访问源域数据,而是通过最小化目标域上的损失函数来更新模型参数。现有方法如TENT、SHOT等通过熵最小化或伪标签自训练来实现域适应,但这些方法在3D点云处理中可能面临性能挑战。

3D点云测试时域适应

针对3D点云的TTA方法需要专门设计以适应3D数据的特性。现有方法如MM-TTA、MATE等通过多模态融合或自监督学习来提高模型的域适应能力,但仍存在伪标签噪声和计算复杂度高的问题。

具体方法

本研究提出了一种无需反向传播的3D TTA方法(BFTT3D),该方法包括以下几个关键步骤:

非参数网络‌:利用非参数网络(如FPS、k-NN和池化操作)从测试点云数据中提取目标域特定的特征表示。

子空间学习‌:通过最大均值差异(MMD)距离和传输成分分析(TCA)将源域原型特征和测试样本特征映射到共享子空间,以减小域差异。

自适应融合模块‌:基于熵信息动态融合源域模型和目标域特定的对数,以输出最终的预测结果。整个框架在适应过程中不引入需要反向传播的参数。

图1

标题:Backpropagation-free Test-time 3D Model (BFTT3D) Overview

解释

图1(a):基线方法。在测试时间t,面对新的点云样本时,大多数现有方法会生成伪标签并以自监督方式训练源模型。图1(b):提出的BFTT3D模型。BFTT3D采用无需反向传播的适应模块来输出目标域特定的对数(logit),该对数与源模型的对数相融合以进行预测。与基线方法相比,BFTT3D不需要伪标签过程和反向传播。

图2

标题:BFTT3D框架

解释

图2展示了BFTT3D模型的整体框架。在准备阶段,使用非参数网络从源点云数据中提取一般特征,并选择一部分特征作为静态原型内存。在测试时间,BFTT3D再次使用非参数网络从测试点云样本中提取特征表示,并与静态原型特征在共享子空间中比较,以计算目标域特定的对数(logit)。最后,该对数通过自适应融合模块与源模型的对数相结合,输出最终的预测对数。

公式1用于计算点云中每个点的通道嵌入。对于每个坐标(X, Y, Z),使用三角函数(正弦或余弦)根据波长(α)和尺度(β)超参数进行编码。

公式2将每个点的X、Y、Z坐标的通道嵌入连接起来,形成原始点嵌入。

公式3通过连接中心点的特征与其邻居点的特征来扩展中心点的特征。

公式4通过中心点和其邻居点的相对位置编码对扩展的中心点特征进行重加权,以考虑邻居点的空间分布。

公式5使用最大池化和平均池化来聚合重加权后的特征信息,以获得更具代表性的中心点特征。这个过程会重复四次,最后应用全局池化操作得到样本特征。

公式6用于选择原型特征。对于每个类别c,选择距离该类别的平均特征f‾cfc最近的特征f加入原型记忆McMc,以确保选出的特征能够代表该类别的关键信息。

公式7计算测试样本特征FtFt与原型记忆M之间的相似度矩阵J。F~tF~t和M~M~分别是FtFt和M的归一化向量。

公式8通过相似度矩阵J和原型记忆标签LmLm计算目标特定的逻辑值lbf,tlbf,t。φ(x)=exp⁡(−γ(1−x))φ(x)=exp(−γ(1−x))是激活函数,用于预测,其中γ是缩放超参数。

公式9,两个公式表示将源域原型特征f和目标域测试样本特征ftft通过投影函数ψψ映射到共享子空间,得到f∗f∗和ft∗ft∗,以减小两个域之间的分布差异。

公式10使用最大均值差异(MMD)距离来衡量源域QsQs和目标域QtQt在共享子空间中的统计差异。其中,nsns和ntnt分别是源域和目标域的特征数量,fi∗fi∗和ft,j∗ft,j∗是映射到共享子空间后的特征。

公式11定义了源域和目标域样本在共享子空间中的核矩阵K。其中,ψ(xi)ψ(xi)和ψ(xj)ψ(xj)是将样本xixi和xjxj映射到共享子空间的函数,⟨⋅,⋅⟩⟨⋅,⋅⟩表示内积,nsns和ntnt分别是源域和目标域的特征数量。

公式12定义了核矩阵K的缩放矩阵L,用于在核学习问题中平衡源域和目标域样本的重要性。

公式13表示核学习问题的优化目标,旨在找到最佳变换矩阵W,以最小化源域和目标域在共享子空间中的MMD距离。其中,tr(⋅)tr(⋅)表示矩阵的迹,μμ是正则化参数,用于控制W的复杂度,H是中心化矩阵。

公式14给出了优化问题(公式13)的解,即变换矩阵W。W由(KLK+μI)−1KHK(KLK+μI)−1KHK的前m个最大特征值对应的特征向量组成。

公式15表示最终逻辑值ltlt的计算方法,它是通过加权融合目标特定逻辑值lbf,tlbf,t和源域特定逻辑值ls,tls,t得到的。权重p根据熵比动态计算,用于平衡两个逻辑值对最终预测的贡献。

公式16用于计算加权融合中的权重p,它基于源域特定逻辑值ls,tls,t和目标特定逻辑值lbf,tlbf,t的熵值比。熵值反映了模型对测试点云样本的不确定性,低熵值表示高置信度。通过此公式,当目标域与源域分布相似时,p值较小,反之较大,从而动态调整两个逻辑值对最终预测的贡献。

表1解释:ModelNet-40C数据集上的实验结果

表1展示了在ModelNet-40C数据集上,不同方法使用不同骨干网络时的分类错误率。ModelNet-40C是一个包含15种常见类型损坏的测试集,用于模拟现实世界中的分布偏移。

基线方法:包括Source-only(仅使用源模型)、TENT、BN、SHOT等,这些方法在不同损坏类型上的表现各异,但总体上都有一定的改进空间。BFTT3D:提出的方法在所有损坏类型上均表现出色,特别是在occlusion(遮挡)和lidar(激光雷达)等目标域与源域差异较大的情况下,BFTT3D相比源模型有显著的错误率降低。

表2解释:ScanObjectNN-C数据集上的实验结果

表2展示了在ScanObjectNN-C数据集上,不同方法的分类错误率。ScanObjectNN-C是一个从真实世界中收集的点云分类数据集,包含15个类别。

基线方法:同样包括Source-only、TENT、BN、SHOT等,这些方法在适应测试域时表现出有限的改进,尤其是在每个目标域的测试样本数量非常有限的情况下。BFTT3D:即使在使用PointNet、DGCNN和Curvenet等不同骨干网络时,BFTT3D模型也能克服较大的域间隙,相比源模型有显著的错误率降低。

表3解释:消融研究:原型数量

表3探究了用于构建相似度矩阵的原型数量对BFTT3D模型性能的影响。

结果:存储100%的源特征用于相似度构建相比仅存储25%的数据并没有带来显著的好处。反而,使用25%的数据不仅节省了内存空间,还减小了相似度矩阵的大小,提高了处理速度。

表4解释:消融研究:子空间学习方法

表4比较了不同子空间学习方法对BFTT3D模型性能的影响。

结果:某些域对齐的子空间学习方法,如TCA和JDA,相比其他设置表现出较低的错误率。而不使用任何子空间学习方法时,错误率最高,这表明在计算非参数适应中的相似度矩阵之前,将特征映射到共享子空间是必要的。

表5解释:消融研究:自适应比例

表5评估了自适应融合模块中使用的自适应比例p的有效性。

结果:与固定阈值(如p=0.5)相比,使用自适应比例p在所有设置中均获得了最低的平均错误率。这表明自适应比例在源模型对数和目标域特定对数之间达到了良好的平衡。此外,通过详尽搜索找到的最佳p值与自适应p值的错误率非常接近,进一步证明了自适应比例的有效性。

图3

标题:非参数网络

解释

图3详细展示了非参数网络如何处理输入点云数据。它首先使用三角函数将点云样本编码为通道嵌入,然后通过最远点采样(FPS)和k近邻(k-NN)找到局部中心点和邻居点。接着,通过连接中心点和邻居点特征,并考虑它们的相对位置编码来扩展中心特征。最后,通过最大池化和平均池化来凝聚信息,并重复此过程四次,之后应用全局池化操作以获得样本特征。