南京农大谢元澄等：基于注意力机制的双目立体匹配家畜3D姿态估计

阅读文章全文：http://www.tcsae.org/article/doi/10.11975/j.issn.1002-6819.202404137

《农业工程学报》2025年第41卷第3期刊载了南京农业大学等单位谢元澄、陈自强、李添天、严心悦、姜海燕与潘增祥的论文——“基于注意力机制的双目立体匹配家畜3D姿态估计”。该研究由国家自然科学基金面上项目（31872847）等资助。

引文信息：谢元澄，陈自强，李添天，等. 基于注意力机制的双目立体匹配家畜3D姿态估计[J]. 农业工程学报，2025，41(3)：163-170.

DOI: 10.11975/j.issn.1002-6819.202404137

在监控群养家畜的个体行为时，准确估计家畜的空间姿态对行为分析至关重要。3D姿态估计相较于传统的2D方法，在解决遮挡问题和提供精确空间信息方面具有显著优势。目前，3D姿态估计技术主要应用于人体和自动驾驶领域，这些应用通常依赖昂贵的测量设备和庞大的数据集，在动物行为研究与生产管理领域难以迅速普及，因此迫切需要一种低成本且高效的动物行为姿态测量方法。

为此，该研究提出一种基于双目立体匹配的家畜3D姿态估计通用方法，首先，使用改进的双目立体匹配深度学习模型获取深度信息；然后，使用基于TopDown方法的2D姿态估计模型提取目标检测框，并检测关键点；最后，将关键点位置信息映射回图像空间，并同立体匹配模型结果融合得到3D姿态信息。由于匹配精度依赖于精准的深度信息，而立体匹配的困难主要集中在薄结构和弱纹理匹配，故以注意力机制和卷积门控循环单元ConvGRU迭代恢复机制构建ACLNet立体匹配模型，通过编码图像纹理的相对深度层次，限制模型注意力集中在真实视差附近，并通过残差的方式逐步恢复高精度深度信息。通过Scence Flow数据集上的消融试验和Middlebury数据集上的泛化试验验证所提模型的有效性。

试验结果表明，ACLNet在Scene Flow数据集上的端点误差（EPE）为0.45，与目前领域内最佳效果接近，相比于未使用注意力机制和ConvGRU机制的基线模型，EPE下降了0.37像素；在Middlebury等真实数据集上也取得了良好的泛化结果；在山羊深度数据集上的EPE为0.56；改进后模型在山羊3D姿态测试集上平均关节位置误差（MPJPE）达到45.7 mm，较改进前下降了21.1 mm。在以山羊为测试样本的3D姿态估计试验中，无需额外训练便可进行准确的3D姿态估计，体现了算法较强的泛化能力和通用性。该方法仅使用双目视觉图片就可准确获取3D姿态，验证了使用简单双目视觉系统实现高精度家畜3D姿态估计的可行性，为使用低成本双目相机进行3D姿态估计提供了一种可行方案。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

HQY

要和谐，要有爱~

南京农大谢元澄等：基于注意力机制的双目立体匹配家畜3D姿态估计

hqy 发表于2025-04-14 09:05:29 浏览5 评论0百度已收录

少长咸集