×

基于图像识别的机器人混拆码技术与应用

hqy hqy 发表于2025-03-01 23:26:51 浏览6 评论0百度已收录

抢沙发发表评论

广告 | 点击查看

摘要智能物流系统中机器人拆码作业应用日益广泛,物料托盘单元单品拆码技术较为成熟。多品物料托盘由于SKU品规差异,拆码过程中需借助机器视觉技术以保障机器人定位、位姿的精度。本文基于轻量化网络的手眼标定算法和Mask-RCNN框架算法进行目标识别及分割,可有效选取多SKU抓取点。工程案例表明,基于本文算法的机器视觉系统,识别精度和运行速度较ResNet50主干网络的卷积模型均有所提升,有助于提升机器人混拆码物料托盘的精度和效率。     

关键词:图像处理;混拆码;神经网络;轻量化网络

者:金桂根1 丁晓霞1 李辉1 金典2

1云南财经大学物流与管理工程学院

2北京科技大学经济管理学院

引言

物料托盘拆码垛技术随着智能物流的发展而兴起,工业机器人广泛应用于物料托盘的拆码作业。尽管拆码垛机器人在许多标准化、重复性的任务中表现出色,但在处理复杂多变的场景时,其技术成熟度仍显不足。在识别、抓取和码放复杂形状、尺寸和重量的物料时,仍存在识别精度不高、抓取稳定性差等问题,从而影响了机器人作业效率和安全性[1]。近年来,机器视觉技术日趋成熟,并被广泛集成到工业机器人中,以增强机器人感知和适应能力。机器视觉的核心技术是图像识别,传统的图像识别主要通过图像预处理、特征提取以及图像识别三个步骤来实现。虽然三个步骤都会影响识别效果,但其中最关键的要素是特征提取,主要通过基于色彩、纹理、形状、空间等底层视觉特征技术实现特征提取。

人工智能、深度学习技术越来越多地应用于机器视觉,也为图像识别带来全新的思路[2]。工业机器人联合机器视觉进行目标定位引导这一方案已经在诸多领域被广泛应用,但对于多SKU或场景设施导致的高光问题、自然光线不稳定造成的图片光照不均等问题关注度不足,且就双阶段目标检测算法(即CNN网络)来看,精确度足够但识别速度随之降低。针对以上问题,本文提出将去高光与深度学习结合,使用轻量化改进的Mask-RCNN框架的检测算法,其中轻量化的骨干网络选取Mobilenetv2,从而使拆码过程具有更优的检测准确率和召回率。

混拆码系统设计

1.工艺流程设计

基于图像识别的机器人混拆码系统工艺流程如图1所示。系统运行时,开启3D视觉识别模块,物料托盘由输送系统输送至固定拆垛点,机器人混拆垛系统自动构建托盘垛型,由拆码系统完成拆码,进行贴标及复核后结束任务。

2.视觉系统设计

机器人的视觉系统分为固定场景视觉系统和运动的手眼视觉系统。手眼视觉系统中的摄像机与机器人手部末端连接,分为Eye-in-Hand和Eye-to-Hand系统。Eye-in-Hand系统的摄像机安装在机器人末端夹具,随机械臂一起移动;而Eye-to-Hand系统的摄像机则固定安放在机器人上方,不随机械臂运动。

摄像机与目标物料距离越近,选取Eye-in-Hand的手眼视觉系统目标物料的位置参数的绝对误差也会降低,图2为视觉系统坐标简图。

设机械手基础坐标系为A,工具坐标系为B,相机坐标系为C,标定板坐标系为D。机械手末端夹具坐标系到基础坐标系的转换矩阵,该矩阵由机器人系统中得到,在手眼标定中默认已知;相机坐标系到机械手末端夹具坐标系的转换矩阵记,与相机装载方式有关,是未知的;相机坐标系到标定板坐标系的转换矩阵记,通过相机标定得到,默认已知;标定板坐标系到机械手基础坐标系的转换关系记。表示固定在某个位置上的棋盘中的角点, 表示棋盘格角点到末端坐标系的坐标, 由相机去直接测量棋盘格角点机器对应的坐标。

根据各个坐标系的关系可得:

             

由上可实现将相机的像素坐标变换到机械臂的空间坐标系。

图1 机器人混拆码系统工艺流程

视觉信息处理

1.图像预处理

在机械臂拆码的工作中,物料的识别分割以及抓取点的定位至关重要。通常图像分割和抓取点的获取,需要基于深度相机获取的物料图像的处理等一系列操作来实现,因此以图像预处理去除不利因素对于物料准确抓取至关重要。尤其在仓库环境下,由于设备及物料材质不同,在光照下会产生高光等影响。图像中存在的高光会使后续图像分割边缘的检测精确度低,从而导致抓取点的选择失误。因此,在机器人拆码系统的实际应用中,图像高光的抑制具有重要意义。

图2 视觉坐标简图

本文综合比较各主流去高光方法,选择了基于高通滤波器的图像锐化和边缘增强方法,通过增强图像中的高频成分来实现去高光。高频成分通常包含图像的细节和边缘信息。通过锐化处理,我们可以使图像的细节更加明显和突出。该方法的原理是通过增强图像中的高频成分,以锐化处理使图像的细节更加明显和突出,再通过滤波器去除低频成分,只保留高频成分即增强图像中的边缘和细节部分,从而提升图像的锐度和边缘清晰度。首先创建一个高通滤波器,用于提取图像中的高频成分,再对每个颜色通道分别应用高通滤波器,以获取每个通道的高频信息。通过将高通滤波器的输出与原图像进行加权组合,可以达到增强图像的边缘效果。公式如下:

其中,其中β是一个增强强度的调节参数,img-double是原始图像的 double 类型表示,img-highpass是应用高通滤波器后的图像,img-enhanced是锐化后的图像。

2.目标检测和识别

(1)目标检测

基于深度学习的卷积神经网络涉及到大量参数和更深的网络层数,因此需要耗费大量的计算资源,例如ResNet50拥有2500多万参数,在实际的机械臂抓取设备中难以部署如此庞大的模型。除了准确率,如何在不过多牺牲精度的同时提升图像识别分割速度也是十分重要的,本文使用轻量化网络MobileNetv2来替代ResNet50作为骨干网络以此提高预测速度。

目前卷积操作广泛运用于神经网络中,Mask R-CNN通过大量卷积神经网络组成,这些神经网络需要大量计算和参数,导致响应速度不佳。Howard等人[3]在2017年提出的轻量化网络结构MobileNetv1通过用深度可分卷积代替传统卷积,大幅降低模型的计算量和延迟。MobileNetv1基于深度可分离卷积构建了轻量且延迟小的模型,并且可以通过两个超参数进一步控制模型的大小,以适用终端设备。深度可分离卷积对传统卷积进行了改进:首先,将多通道特征图分解为单通道特征图,并对每个单通道进行卷积(逐通道卷积);随后,使用1×1卷积核将这些特征图整合在一起(逐点卷积)。

深度可分离卷积和普通卷积的计算量对比如下式:

                        

其中DK是卷积核的高度和宽度,DF是输入特征图的高度和宽度,M表示通道数量,N表示输出特征图的通道数。

MobileNet V2[4]架构在2018年初发布,基于MobileNet V1的基础进行优化。从架构上看,它引入了层间的线性瓶颈和瓶颈间的快捷连接两个模块。线性瓶颈和瓶颈间的快捷连接都是倒残差结构(Inverted Residuals)的组成部分,该结构通过线性卷积升维,深度卷积提取特征,再用线性卷积降维。与传统残差结构(ResNet)不同,MobileNet V2的倒残差结构在升维后处理高维信息,在保持网络性能的同时降低计算成本,加快了模型收敛速度。

倒残差结构与传统残差结构的区别主要在于卷积顺序。传统残差结构采用1×1卷积降维→3×3卷积→1×1卷积升维顺序,而MobileNet V2的倒残差结构采用1×1卷积升维→3×3深度卷积→1×1卷积降维。

(2)图像识别

图像识别采用Mask R-CNN作为主网络的实力分割框架,使用轻量化网络MobileNetv2来替代ResNet50作为骨干网络来降低参数量提高可移植性,改进的网络结构如图3所示。使用主干网络为MobileNetV2的Mask-RCNN算法进行图像分割步骤如下:

①将原始图像输入MobileNetV2,进行特征提取并生成特征图;

② 在特征图上应用滑动窗口,以提取候选区域; 

③利用RoIAlign层,通过双线性插值改进RoIPooling,确保兴趣区域的一致性并固定特征图尺寸;

④ 使用全卷积网络(FCN)生成掩码,结合边缘损失函数、目标分类、边界框回归和语义信息,完成实例分割; 

⑤ 输出分割的图像结果。

       图3 改进Mask R-CNN 网络结构图

表1不同主干网络上改进前后图像分割结果对比表

应用案例

某食品企业采购的原料、辅料等大宗物资,供应商均以随货托盘混堆码方式运输,通过叉车卸载进入入库输送线,经多台协作机器人拆解捆扎带和缠膜等外包装后,再由装有图像识别视觉系统的工业机器人进行混合堆码托盘的拣选作业,按单品堆码到自动化立库的周转托盘上,形成单品物料托盘,经AGV搬运入库。

1.构建图像数据集

根据原料、辅料SKU品规数量构建不同码放形式数据集(共508张图像),数据集分为355张训练图像和153张测试图像。通过精确度(Precision, P)和召回率(Recall, R)来计算各阶段的平均精度(mAP),以此对深度学习网络进行评估。具体计算方式如公式(4)~(6)所示。

其中,TP为纸箱中正确被检测的数量,FP为错误被检测的数量,Pb为类别C的精确度,Nb为含有类别C的图片数量,N为图片总数。

本文对以MobileNetv2为骨干网络的Mask R-CNN模型和以ResNet50作为骨干网络的Mask R-CNN模型进行对照试验。对照试验中,代码本地运行环境为python3.11.7版本,在AutoDL平台上,租用云服务器并搭建GPU版本的Pytorch深度学习框架,结合RTX 3090 GPU进行训练,使用Mask R-CNN算法,选择MobileNetv2和ResNet50做为主干网络,进行纸箱识别训练并通过迁移学习保存和加载训练权重,优化识别精度,得到的性能数据如表1所示。

由表1可得,采用MobileNetV2作为主干网络,相比ResNet50作为主干网络,平均检测时间和各IoU下的平均精度都得到了改进。AP50指的是IoU为0.50时的平均精度,反映预测框与真实框的交并比;AP75则表示IoU为0.75时的平均精度。从测试集的实验结果来看,两主干网络下图像识别模型的平均精度持平,轻量化网络MobileNetV2要略高于ResNet50,平均检测时间轻量化模型MobileNetV2要快百分之二十多。由此可以看出轻量化模型更加灵活,检测效率更高。

2.标检测和识别

本文选取具有代表性的拆垛场景图像进行可视化对比,两张图像在SKU和码放规则性上都有所区别,图4(a)左是单SKU规则堆码的,这是在传统拆码垛中示教机器人工作时使用的标准垛型,规则的垛型和单一的规格便于机器人根据程序快速准确作业。图4(a)右是不规则堆码的多SKU垛型,传统示教机器人无法仅通过示教模式完成拆码作业。故应用边缘增强结合实例分割对这两张图进行识别提取并对比不同骨干网络的精确度,图4(a)是两种规格和码放状态的RGB图像,图4(b)为进行边缘增强后的效果图。

(a)物料RGB图像

(b)图像边缘增强效果图

(c)主干网络为MobileNetv2

(d)主干网络为ResNet50

图4(c~d)分别是利用主干网络为MobileNetv2和ResNet50进行特征提取的对比图。结合前部分性能数据可知,两模型均能出色地完成图像的识别,但轻量化网络MobileNetV2显著减少了模型的参数量,提升了计算效率,这使得此模型可应用于资源受限的设备(如移动设备和嵌入式设备),仍能保持较高的精度和性能。由图可以看出,此识别做到了表层箱体精度高于底层箱体精度,如此可做到抓取有序,互不干扰。综上,本系统完全可以胜任单SKU单拆以及多SKU混拆。在实际抓取中,机械臂将根据精度大小由高到低来进行抓取,可优先抓取表层箱体,避免表层箱体未抓取完成导致的抓取障碍。不管是从精度、效率还是参数量来看,以MobileNetV2为主干网络的Mask R-CNN模型都要优于以ResNet50为主干网络的模型,其不仅降低了内存需求,还提供了更加符合实际应用的分割结果。

3.抓取点选取

由于该食品企业物料多是以长方体纸箱运输,相对来说较为规整,故而选取箱子的中心点作为抓取点,利用EPnP算法获取箱体的位姿即箱体在三维空间中的旋转矩阵R和位移向量t,再通过计算将相机坐标系中的中心点转换为机械臂坐标系中的中心点,实现抓取点的选取。

PnP算法主要应用于位姿估计,大多数非迭代的PnP算法会首先求解特征点的深度,以获得特征点在相机坐标系中的3D坐标,而EPnP算法则是PnP算法的非迭代形式,其将世界坐标系中的3D坐标表示为一组虚拟的控制点的加权和,相对于PnP算法来说, EPnP算法受噪声、弱纹理及无纹理物料的影响较少。3D参考点在物料坐标系中的坐标为,在相机坐标系中坐标系为。四个控制点在物料坐标系中的坐标为,在相机坐标系中的坐标为。其中,均非齐次坐标。故有:

相机坐标系下,存在同样的加权关系:

           

设相机外参为[R,t],则虚拟控制点和的关系式如下:

           

在此基础上,采用EPnP算法对三维虚拟控制点进行线性加权求和,得到物体的位置姿态,从而得到物体的转动矩阵R和位移矩阵t。

为验证抓取的可行性,案例中选取了8种不同规格的箱体,分别针对单规格规则码放和多规格不规则码两种堆叠形式进行抓取实验,箱子具体规格数据见表2。

本文对两种情况分别进行抓取验证。其中多规格不规则码放用到八种规格共十个箱子,分两层放置,第一层放置六个第二层放置四个;单规格规则码放使用一种规格共六个箱子,分两层放置,第一层放置四个第二层放置两个。抓取结果表明,抓取平均用时约2.4s,抓取成功率能够达到99.64%。每次验证都保证箱体在相机识别范围内,通过虚拟坐标与实际坐标间转换得到实际抓取位姿并计算误差。验证结果表明,两种情况下X、Y轴误差皆在-6~10mm之内,Z轴误差控制在±10mm之内,抓取位姿误差如表3、表4所示。

由表3和表4可知,多规格不规则码放的误差大致可控制在-6~10mm之间,而单规格规则码放的误差则控制到了-3~5mm之间。由于单规格规则码放情况下箱体不存在高低差,光影影响较小,故而识别精度要略高于多规格不规则码放。但不论是何种规格何种码放形式,几乎都可成功完成抓取。

综上,虽然抓取位姿和实际位姿存在一定误差,但都控制在合理范围内,且抓取成功率已达到99%以上,满足了该食品企业对原料、辅料混拆码托盘的自动化作业要求。

表2 纸箱规格表 

 表3 多规格不规则码放下抓取位姿误差表

表4 单规格规则码放下抓取位姿误差表

总结

基于Mask-RCNN的机器人混拆码垛技术,利用MobileNetV2+FPN轻量化主干网络,降低了模型大小,图像分割数据集上平均检测时间较以ResNet50为主干网络的模型缩短22.4%,检测精度可达99.7%。工程案例验证了此技术的可行性,混拆码抓取成功率达到99%以上,具有较高的应用价值,为机器人实现混拆码物料托盘提供了一种可行的解决方案。

参考文献:

[1]王丹,訾明明.基于动作示教的仿人机器人模仿控制策略[J/OL].计算机仿真:1-9[2024-06-30].

[2]乔峰丽,苗鸿宾,纪慧君.基于MaskR-CNN的零件抓取检测算法[J].制造技术与机床,2022(12):65-69.

[3]Howard A G,Zhu M , Chen B ,et al.MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[J]. 2017.DOI:10.48550/arXiv.1704.04861.

[4]Sandler M , Howard A , Zhu M ,et al.MobileNetV2: Inverted Residuals and Linear Bottlenecks[J].IEEE, 2018.

———— 物流技术与应用 ————

编辑、排版:王茜

本文内容源自《物流技术与应用》2025年2期(点击可查看掌上电子刊)

欢迎文末分享、点赞、在看!转载请联系后台。

广告宣传