×

《体育中的机器学习》第2章:体育分析中的计算机视觉

hqy hqy 发表于2025-04-27 11:30:37 浏览9 评论0百度已收录

抢沙发发表评论

Max大郭(备注:郭佰鑫)

一位运营着公众号体育科学和AI大模型爱好者,喜欢刷科技资讯的大学生

联系我:MaxGBX (欢迎科研、产品、自媒体合作交流)

有更多

这本书其余内容,你可以查看公众号的话题: 《体育中的机器学习:下一回合分析的开放方法》

▼ 这本书在Springer上面是完全免费开放获取的

▼ 本章的思维导图

文章比较长,希望各位有耐心阅读!对了,我最近开设了一个付费的私域资讯群,分享每天我接收的主要信息(研究/文章/视频)有兴趣的欢迎私信!

如果您认可我的内容的话,我非常希望您可以帮我转载/传播一下,让更多人了解前沿的文献/产品相关资讯!大郭在这里抱拳了

我联系方式放在文末了!

▼ 有需求的加我:MaxGBX

欢迎各位关注一下我的抖音、小红书、等平台!

第二章 体育分析中的计算机视觉摘要

关键词

2.1 引言

近年来,计算机视觉已成为体育分析领域的强大工具,推动了数据采集、分析和解读方式的进步。计算机视觉是一个研究领域,涉及使用算法和技术使计算机能够解释和理解来自现实世界的视觉信息。在体育领域,这意味着通过捕捉和分析视频片段来提取有关球员动作和战术要素的宝贵见解。然而,目前包括原始数据采集和标注在内的许多数据采集工作仍依赖人工,既耗时又费力。虽然有时会使用昂贵的设备,但经济限制使其仅适用于顶级专业人士。因此,利用计算机视觉技术实现自动化数据采集的需求日益增长。

2.1.1 体育分析中关键计算机视觉任务概述

场地注册是指将捕获的视频画面与预定义或模板化的比赛场地进行对齐。“场地注册”和“相机校准”这两个术语有时可互换使用,但它们有不同的目的[107]。体育场地注册估计3D体育场地平面与图像之间的单应性,其应用局限于场地平面内。相比之下,相机校准提供整个3D世界与图像之间的映射,适用于全面的3D应用。通过精确的场地注册,分析师可以为跟踪球员动作和比赛事件创建可靠的空间背景,在整个分析过程中提供一致的参考框架。本章将主要介绍用于体育分析的场地注册技术。跟踪包括在视频帧中检测和关联相关对象。在体育领域,这涉及首先使用神经网络等先进算法检测球员、球和其他关键元素,这些算法即使在不同的光照条件和遮挡情况下也能准确地定位和分类这些对象。例如,一旦检测到对象,一些跟踪算法会根据其当前轨迹和速度预测它们在未来帧中的位置。这种检测和跟踪过程对于分析球员运动,包括速度以及与其他球员和球的互动非常重要。

通过关注这些基本组件,计算机视觉系统可以为体育分析提供强大的框架。每个元素在将原始视频片段转化为有意义的数据方面都起着关键作用,这些数据可用于深入了解球员表现和团队战术。

2.1.2 体育数据采集的重要性和挑战

准确可靠的数据采集是有效体育分析的基石。从计算机视觉技术中得出的见解和分析的质量在很大程度上取决于所收集数据的质量。在体育领域,数据采集涉及从比赛和训练中捕获各种视觉和位置信息,然后用于为决策和策略提供依据。

然而,在体育领域获取高质量数据存在一些挑战:

环境因素:天气条件,包括光照、相机角度和障碍物,会显著影响捕获视频的质量。开发对各种环境因素具有鲁棒性的方法是一个重大挑战,因为几乎不可能确保在不同的体育场和体育项目中获得一致清晰的视觉效果。

数据量:体育赛事会产生大量数据,包括视频片段、跟踪数据、事件数据、姿态数据和其他传感器信息。高效管理和处理这些数据对于及时分析和反馈至关重要。

多数据源的集成:将来自不同来源的数据,如相机、GPS设备和可穿戴传感器的数据结合起来创建一个统一的数据集可能很复杂。确保这些数据流的同步和兼容性对于准确分析至关重要。

隐私和伦理考虑:收集运动员的详细数据会引发隐私和伦理问题。确保数据收集实践符合法律和伦理标准对于保护所有运动员的权利和福祉很重要,尤其需要关注儿童运动员。

尽管存在这些挑战,计算机视觉技术的进步不断增强体育分析的能力。通过解决这些问题并利用最先进的技术,研究人员和从业者可以获得高质量的数据,从而推动更好的表现和战术。

在以下部分,将探讨计算机视觉在体育分析中使用的特定技术和数据集,突出它们的应用、方法以及对该领域的影响。特别是,这些部分将强调开源数据集如何通过推动该领域的研究使科学界受益。

2.2 体育分析中关键计算机视觉元素的描述

2.2.1 场地注册

场地注册是体育分析中的一个重要过程,它将视频片段与预定义的比赛场地对齐,以确保位置数据准确对应于现实世界的坐标。这种对齐允许精确跟踪球员的运动,为各种分析任务奠定基础。本节首先介绍用于场地注册的可用数据集,然后探索不同的场地注册方法,包括相机校准技术、最近基于关键点和无关键点的方法,以及处理多个摄像机视角和遮挡的策略。

场地注册的数据集

为了开发和评估场地注册方法,研究人员共享并利用了各种标注有体育场地单应性和几何场地元素等信息的数据集。这些数据集对于基准测试和提高场地注册技术的准确性非常重要。在此,总结一些在体育分析中使用的重要数据集,突出它们的范围、标注和可访问性。截至2024年,Magera等人[107]对这些数据集进行了全面总结。请注意,以下数据集包括场地标记、单应性或针孔模型。场地标记包括体育场地中的几何元素,如线条和圆圈。单应性是适用于2D平面表面的简单变换,而针孔模型提供了完整的3D映射,考虑了相机的内参和外参,便于进行更复杂的空间分析。

在足球领域,WorldCup 14数据集包含395张标注了单应性的图像,并且是公开可用的。它已被广泛用于[29, 67]等研究中,成为评估场地注册方法的热门选择。同样,TS - WorldCup数据集提供了3812张标注有单应性的足球图像,也是公开可访问的[33]。SoccerNet - calibration数据集[35]是另一个值得注意的资源,提供了21132张标注有场地标记的足球图像。该数据集是公开可用的,并已在多项研究中使用,如[165]。CARWC数据集包含4207张标注有单应性的足球图像,也是公开可用的[39]。

在冰球领域,SportLogiq数据集据报道有167万张图像,尽管其标注的具体细节未公开,且该数据集不公开[67, 81]。对于多体育项目应用,亚马逊的SportsFields数据集包含2967张标注有单应性的图像,但同样不公开[122]。对于排球,有一个包含470张标注有单应性图像的数据集被报道[29],但其标注数据不公开。

在篮球领域,DeepSportRadar和3DMPB分别提供728张和10000张图像,均使用针孔模型进行标注且公开可用[72, 170]。College Basketball数据集包含640张标注有单应性的篮球图像,但不公开[145]。最后,Athletics数据集提供10000张标注有针孔模型的图像,也是公开可用的[13]。

这些数据集有助于开发场地注册算法,提供多样且标注的图像,便于创建和评估可靠的相机校准方法。然而,标注的多样性、某些体育项目数据集规模的有限性以及对一些数据集的访问限制,在不同研究中实现一致和可比的结果方面构成了挑战。

传统场地注册方法

传统方法主要侧重于估计单应性,它仅提供2D场地平面与图像之间的映射。然而,要考虑相机的畸变、视角的变化和相机参数的差异具有挑战性,这会导致结果不太准确和可靠。因此,相机校准在场地注册中也很重要,并且认识到这两个任务是相辅相成的很关键。一些工作探索了相机校准,以实现对非平面点(如属于球门柱或横梁的点)的投影(例如,[27, 35, 150])。这涉及使用体育场地的已知尺寸作为校准装置来估计相机的内参(焦距、主点)和外参(旋转、平移)。

场地注册中的深度学习方法

尽管传统的场地注册和校准方法具有一定的精度,但它们通常依赖手动特征选择和参数调整,使其在不同条件下的适应性较差。深度学习方法作为一种强大的替代方案出现,它利用大型数据集和先进算法来自动化和增强场地注册过程,提供更高的鲁棒性和效率。基于关键点的深度学习方法主要集中在直接预测初始单应性矩阵[81, 163],或者在具有已知单应性或相机参数的合成图像参考数据库中寻找最佳匹配的单应性[145, 147, 188, 189]。其他方法利用后续视频帧之间的时间一致性[38, 122]来细化单应性估计。此外,基于几何的3D体育场地注册方法也已被提出[58],目前这是足球场地注册中最好的开源方法[58]。通过采用经典的相机校准技术,如DLT算法和RANSAC,该方法在多视图和单视图3D相机校准中均取得了优异的性能。

无关键点方法不依赖于检测场地上的特定点或特征,而是使用更通用的特征,如线条或区域来实现场地注册。TVCalib[165]使用可微目标函数从线段对应关系中学习相机姿态和焦距。通过使用线段定位和迭代校准模块,这种方法最小化重投影误差,即使在广播足球视频中也表现良好[37, 58]。

场地注册中的常见挑战

场地注册中的一个常见挑战是广播视频中场地部分被遮挡的情况。为了解决这个问题,最近的方法结合了基于深度学习的语义分割[67, 122, 188]或边缘检测[147]来从场地中提取相关特征。另一个挑战是,当前的方法在很大程度上仍然忽略了相机镜头畸变以及视频画面与现实世界坐标之间映射的非线性所带来的复杂性。一些方法侧重于利用体育场地的几何属性生成关键点网格,通过DLT和RANSAC算法进行最小程度的细化,实现稳健的相机校准[58]。研究能够准确考虑这些因素的新模型和算法对于进一步提高场地注册的精度和可靠性至关重要。这些场地注册方面的进展对计算机视觉在体育分析中的整体有效性做出了重大贡献,有助于对球员运动进行详细而准确的分析。

2.2.2 跟踪

研究人员提出了多种用于在团队运动中跟踪球员和球的方法。跟踪涉及在连续的视频帧中检测和跟踪球员和球的运动(后者称为多目标跟踪(MOT)),从而生成准确的位置数据,这是进一步分析任务的基础。已经开发了各种传统和深度学习方法来提高体育跟踪的准确性和效率。以前的调查[110, 133]总结了各种结合背景减法、多相机三角测量和卡尔曼滤波器来跟踪球场上球员运动的方法,这里将更简要但全面地回顾包括最新方法在内的跟踪技术。

跟踪的数据集

在体育领域,体育跟踪数据集的开创性工作利用多视图视频摄像机提供了足球运动员位置数据,为球员跟踪和分析提供了宝贵资源[44]。此外,具有2K全景单视图和多视图视频以及局部定位系统(LPS)数据的数据集进一步提高了准确跟踪球员运动的能力[131]。对于更广泛的应用,大型广播视频数据集,如SoccerNet[36, 150]和SoccerDB[82]已公开提供。在其他团队运动中,如篮球的APIDIS和SPIROUDOME数据集[41, 104]、手球数据集[19]以及排球视频数据集[75],为跟踪球员提供了全面的视频数据。

最近的数据集,如SoccerNet - Tracking[36]和SportsMOT[40](涵盖足球、篮球和排球)使用未经编辑的主摄像机和广播镜头。这些数据集通常需要额外的处理来进行图像配准和处理缩放问题。SoccerTrack[142]利用无人机和鱼眼镜头提供全场跟踪,并且最近扩展到TeamTrack数据集,该数据集在全场视频中提供多运动项目(包括篮球和手球)的MOT,如图2.2所示。此外,虚拟环境,如谷歌研究足球(GFootball)[89]能够生成合成相机和位置数据,为开发和测试跟踪算法提供了可控环境。这些跟踪数据集的进步极大地推动了体育分析中准确跟踪的普及,同时也允许在标准化环境中对算法进行基准测试和性能比较。

目标检测

图 2.2 TeamTrack 数据集 [141] 的示意图。它利用无人机(a、c、e)和鱼眼镜头(b、d、f)在全场视频中进行多运动项目的多目标跟踪(MOT)。该数据集涵盖足球(a、b)、篮球(c、d、e)和手球(f),具有不同的相机视角,增强了跟踪方法的多样性和适用性。该图来自 [141] 的 arXiv 版本,根据知识共享署名 4.0 国际许可协议(CC-BY 4.0)授权使用。

基于检测的跟踪方法

一旦检测到对象,下一步是在连续帧中关联这些检测结果,这被称为基于检测的跟踪方法。传统的跟踪方法包括对球员和球的点跟踪技术,如卡尔曼滤波器(例如,[61])。轮廓跟踪、剪影跟踪和基于图的跟踪分别涉及使用主动轮廓模型跟踪球员和球的轮廓(例如,[91])、采用形状分析技术匹配和跟踪剪影(例如,[117]),以及将球员位置表示为图上的节点,轨迹作为边(例如,[47])。

在最近的多目标跟踪中,在涉及遮挡或快速运动的场景中,跨帧关联检测到的对象以保持一致的身份是一个关键挑战。解决这个关联问题的两种主要方法是基于运动的技术和基于外观的技术,每种方法都有其优点和局限性。

基于运动的方法依靠预测检测到的对象基于其过去轨迹的未来位置。SORT(Simple Online and Realtime Tracking)[18]因其速度和简单性而受到欢迎,它结合了卡尔曼滤波器进行运动预测和匈牙利算法进行数据关联。在此基础上,许多算法不断发展,如ByteTrack[191]、OC - SORT(Observation - Centric)[24]、BIoU(the buffer of two overlapping boxes)[183]、EIoU(expanding the IoU according to different scales of expansion)[74]。BIoU和EIoU在SportsMOT[40]和SoccerNet - Tracking[36]数据集上也证明了多目标跟踪的有效性。

体育场景中多目标跟踪的独特挑战

体育环境中的多目标跟踪面临着更大的挑战。这种复杂性源于体育的独特特征,如运动员的快速和不可预测的运动、同一球队球员之间的视觉相似性,以及由于运动的动态性质导致的遮挡增加。在非体育领域,除了基于检测的跟踪范式外,端到端跟踪方法将对象检测和跟踪集成到一个过程中,通过同时处理这两个任务可能提高性能。例如,Tracktor[17]利用帧冗余来简化数据关联,而Neural Solver[20]和DeepMOT[180]利用神经网络和连体网络来提高跟踪精度。基于transformer的模型,如DETR[26]也已被改编用于跟踪,如Trackformer[114]和TransTrack[155]。

更现实的场景设置

同样在[150]中,运动员Re - ID是在视频级别而不仅仅是图像级别进行评估。Re - ID过程通过整合多个属性,如他们的角色、球队和球衣号码,在整个比赛中跟踪运动员。这种综合方法通过利用深度学习模型的特征提取,解决了遮挡、不同摄像机角度和球衣号码部分可见等挑战。这个比赛状态重建[150]将在2.3节中描述。

动作检测及其挑战

2.2.5 姿态估计

体育领域的姿态估计由于涉及动态和复杂的动作、摄像机设置的限制以及球员之间频繁的遮挡和接触,面临着独特的挑战。体育活动通常需要捕捉快速、复杂的动作,与现有数据集相比,这是一个重大挑战。此外,体育场景有时涉及移动的、低分辨率的画面,这增加了姿态估计的难度。团队运动中球员频繁接触,导致大量遮挡,而且穿着相同制服的球员外观相似,使得基于外观的方法难以区分个体。这就需要专门的数据集、2D和3D姿态估计技术的进步以及解决这些挑战的方案。

体育领域中用于姿态估计的数据集

2D姿态估计

自上而下和自下而上的方法是2D人体姿态估计的两种主要策略。多年来,2D人体姿态估计的自上而下方法有了显著发展,在准确性和效率方面取得了令人瞩目的进步。这种方法通常包括两个阶段:首先在图像中检测个体,然后为每个检测到的人估计姿态。DeepPose[167]率先使用深度神经网络进行姿态估计,将其表述为基于深度神经网络的回归问题。高分辨率网络(HRNet)[153]通过在整个过程中保持高分辨率表示进一步改进了这一方法,从而实现更准确和空间精确的关键点预测。最近,ViTPose[181]表明,即使是一个简单的基于视觉Transformer的模型,无需复杂的模块或CNN融合,也能在人体姿态估计中取得有竞争力的结果。这些自上而下的方法通常比下面介绍的自下而上的方法更准确,但计算成本更高,并且依赖于检测质量。

2D人体姿态估计的自下而上方法多年来也有了显著发展,为多人姿态估计提供了高效的解决方案。DeepCut[132]率先使用深度学习联合检测和关联身体部位。OpenPose[25]通过引入部分亲和场进一步推动了该领域的发展,实现了实时多人姿态估计。HigherHRNet[31]通过引入尺度感知表示学习方法改进了先前的方法,特别适用于检测不同尺度的人的姿态。自下而上的方法通常比自上而下的方法更高效、更具可扩展性,但在准确的关键点分组方面可能存在困难,有时整体准确性可能较低。最近,出现了模糊自上而下和自下而上方法界限的端到端方法(例如,[100, 149])。这些端到端方法试图通过利用Transformer架构提供的全局上下文来解决多人姿态估计中的挑战,如遮挡和不同尺度的问题。

3D姿态估计

3D姿态估计通过各种方法取得了显著进展,包括直接估计和2D到3D的提升。这里首先介绍单目3D姿态估计方法,然后描述多视图方法。直接估计方法旨在直接从2D图像预测3D姿态,而无需中间的2D姿态估计(开创性工作见[164])。这种方法虽然具有创新性,但往往在深度歧义性和遮挡方面存在困难。相比之下,2D到3D的提升方法首先估计2D姿态,然后将这些2D关键点提升到3D空间(开创性工作见[112])。最近,Transformer基模型已被用于体育3D姿态估计。例如,StridedTransformer - Pose3D[95]被用于花样滑冰[162],MotionAGFormer[113]被用于我们团队的足球广播视频[185],如图2.4所示。

多视图3D姿态估计由于其处理复杂场景和遮挡的能力而受到广泛关注。为了解决这些问题,例如,提出了一种可学习的人体姿态三角测量方法[78]和一种在空间和时间上同时推理多个人体3D关节重建和关联的方法[135],这些方法允许端到端训练并提高了准确性。在体育领域,提出了一种从多视图图像学习单目3D人体姿态估计的方法,利用视图一致性和少量标记数据,实现对注释有限的动作进行姿态估计[137]。还提出了一种用于体育场景中多人3D姿态估计和跟踪的快速贪心算法,该算法关联不同视图的2D姿态并生成3D骨架,以处理具有挑战性的体育场景[21]。此外,引入了一种用于排球扣球分析的运动感知和数据无关的多视图3D姿态细化模型,利用多视图关系和特定运动的运动模式来提高姿态估计的准确性[103]。

图 2.4 我们团队在足球广播视频中的 3D 姿态估计示例 [185]。上图是广播视频帧,左下角和右下角的图像分别对应 2D 和 3D 姿态估计结果。此图经 SoccerNet 社区许可使用。

体育领域中姿态估计的挑战

体育领域的姿态估计存在一些重大挑战,影响其准确性和适用性。一个主要问题是体育生物力学研究人员对准确性的严格要求,他们需要高精度的关节中心位置进行分析。目前的姿态估计模型往往无法始终提供所需的精度水平,导致开发这些模型的计算机科学家的目标与体育生物力学研究人员的特定需求之间存在差距。此外,体育动作的动态和复杂性质,加上团队运动中球员频繁的遮挡和相似的外观,加剧了实现准确姿态估计的难度。这些挑战需要姿态估计技术的进步,以更好地满足体育科学界的需求。

为了解决其中一些挑战,最近的研究探索了创新方法,如无监督微调。Suzuki等人提出了一种用于单目3D姿态估计模型的无监督微调系统[158],如图2.5所示。他们的方法利用多视图估计获得初始3D关节位置估计,然后将其用作基于[90]的单目模型微调的伪标签。这种方法旨在通过减少对广泛手动校准和多个摄像机设置的需求,提高体育动作捕捉的成本效益和准确性。在另一项工作中,探索了使用未标记数据来增强姿态估计模型的鲁棒性和泛化能力[139]。这些进展通过满足准确捕捉和分析运动员表现的特定需求,为更广泛的体育分析领域做出了贡献。

图 2.5 运动捕捉技术的比较。该图对比了真实运动捕捉和经济高效的运动捕捉方法 [158]。真实运动捕捉准确但成本高昂,涉及多个摄像头和手动校准,从而获得精确测量结果。另一方面,经济高效的运动捕捉 [158] 使用较少的摄像头、自动校准和无监督微调。这种方法根据情况,可通过多视图设置实现高精度,或通过单目设置实现便捷性。

2.3 先进应用

在体育领域,球的自旋估计是一项复杂的任务,可以通过间接和直接两种方法来实现。间接方法利用相关元素,如人体姿态和球拍运动来推断自旋。例如,在乒乓球中,已利用人体姿态信息来估计球的自旋[140],同时也采用了稳健的球拍检测方法来预测球的自旋[51]。直接方法则专注于球本身,通过分析其轨迹(例如,[30])或观察球的特定特征来进行估计。诸如基于标志跟踪(例如,[56])和基于模式的方法(例如,[49])等技术,通过跟踪球表面的标志或图案来提供直接的自旋测量。最近的进展包括在排球和网球中使用事件相机[57, 118],这种相机受动物视觉系统启发,能够输出场景中的亮度变化。

2.3.3 从视频进行动作预测和评估

尽管在提取数据后进行预测和评估很常见,但直接从视频进行动作预测在行人预测[134]和烹饪[1]等领域已得到广泛探索,并且在体育领域也有应用,例如预测足球中的传球、犯规以及球的位置和方向。在足球方面,模仿学习技术通过利用球员坐标和身体方向数据来计算队友之间传球的可行性,从而提高了传球预测的准确性[8]。此外,将轨迹数据与视频输入相结合,显著提高了传球接球者预测的准确性[68]。在足球犯规预测中,通过使用从广播视频中估计的姿态,借鉴行人意图预测的类似方法,取得了一定进展[80]。此外,利用二传手的骨骼运动数据,排球轨迹预测也得到了改进[151],并且实时预测人体运动已应用于减少交互系统中的延迟[70]。这些进展展示了动作预测在各种体育场景中不断发展的能力和应用。

对于从视频中对体育动作进行评估,已经开发出一种从视频片段自动对奥运会项目进行评分的方法,重点关注跳水和花样滑冰表演[128]。这项工作扩展到评估多个体育项目的动作质量,包括体操跳马和跳台滑雪[127]。另一种方法提出了一种关节关系图,通过对体育视频中详细的关节交互进行建模来评估动作质量[126]。还创建了一个专门用于从视频数据对花样滑冰表演进行评分的系统[178]。此外,在跳水领域引入了基于规则和计算机视觉相结合的方法,用于全面且可解释的动作质量评估[125]。在棒球领域,开发了PitcherNet用于从视频分析中分析投球动作和表现[22]。早期的工作主要集中在端到端的神经网络模型,而最近的研究则探索了结合领域知识的混合方法,以追求更高的可解释性。这些自动化动作质量评估的进展在多个体育项目中,对提升教练指导、裁判评判和运动员发展具有巨大的潜力。

2.3.4 与语言模型的集成

最近,将语言模型与计算机视觉技术相结合的进展为体育分析开辟了新的途径,能够提供更细致入微且具有上下文感知的见解。例如,GOAL数据集[152]利用足球视频来开发能够理解和解释比赛事件的模型。同样,Sports - QA数据集[92]使用各种体育视频创建了一个问答系统,可以回答关于比赛的查询。

SoccerNet - caption数据集[116]专注于为足球比赛生成字幕,从视频片段中提供比赛事件的详细描述。在此基础上,SoccerNet - XFoul[65]包含22,000个与足球犯规相关的问题和答案,有助于开发能够回答关于该运动中规则违反详细问题的模型。

除了足球,其他体育项目也从这些集成中受益。例如,关于橄榄球场景分类的研究[123]使用视觉 - 语言模型来改进场景分类。另一项值得注意的工作DanceMVP[193],应用带有Transformer文本提示的自监督学习来评估舞蹈表现,展示了在体育分析中集成语言模型的多功能性和广泛应用。

2.4 体育分析中计算机视觉的未来方向

体育分析的未来将由多模态融合和计算机视觉技术的持续进步所塑造。通过将视觉数据与其他感官输入相结合,并开发复杂的机器学习模型,该领域旨在提高分析的深度和准确性,从而全面洞察球员表现和团队战术。

2.4.1 多模态融合

2.4.2 潜在进展及其对体育分析的影响

体育分析的未来在于计算机视觉技术的持续进步及其与其他模态的融合。潜在的进展包括开发更复杂的机器学习模型,能够处理体育环境的复杂性,如快速且不可预测的运动、遮挡和不同的光照条件。这些模型可能会采用更先进的神经网络架构,如Transformer和图神经网络,以提高准确性和效率。

然而,需要认识到这些方法的有效性不仅仅取决于模型的进展。大规模、高质量的标注数据集的可用性对于推动性能提升同样至关重要。公开共享更多高质量标注的数据可以显著提高这些模型的性能。为了解决手动标注可能资源密集的挑战,主动学习技术提供了一个有前景的解决方案。通过有选择地标注最具信息性的样本,这些技术可以在提高模型性能的同时减轻标注负担(例如,[54])。

此外,预计这些技术的应用将不仅仅局限于精英体育领域,还将通过经济实惠的解决方案普及到业余和青少年体育。例如,关于足球动作定位在不同足球领域的迁移能力的研究[23],强调了这些方法在缩小职业和业余体育视频差异方面的重要性。通过自动化从视频片段中提取和分析有意义信息,并利用数据可用性和机器学习方面的这些进展,体育分析领域将能够更全面、详细地洞察球员表现、团队策略和整体比赛动态。这些进展最终将在从精英到业余和青少年的各个体育层面上,提升教练指导、训练和赛事转播水平。

2.5 总结

计算机视觉在推进体育分析方面发挥着关键作用,它提供了自动化、详细且准确的球员表现和比赛动态洞察。该技术减少了对手动数据收集和标注的依赖,使先进的分析能够应用于从精英到业余的更广泛体育领域。在下一章转向使用机器学习进行预测分析和比赛评估时,必须认识到通过计算机视觉获得的数据是这些先进分析技术的基础。机器学习与丰富的视觉数据的结合,使预测模型能够预测球员动作并评估比赛,进一步增强了体育领域的战略决策能力。这种计算机视觉与机器学习的协同作用标志着体育分析发展的重要一步。

作者介绍

作为名古屋大学的一名副教授,我深深沉浸在 多智能体时空数据科学这一迷人的领域及其在现实世界中的应用中。我热衷于探索 如何将领域知识与机器学习技术有效地结合起来,这种热情推动着我的学术生涯。

谷歌学术主页:https://sites.google.com/view/keisuke1986en

我的主要研究兴趣涵盖多个领域,例如 体育分析(包括足球、篮球和手球等运动项目)以及动物群体行为研究。我一直渴望与研究人员、行业专家,以及任何对数据科学及其潜力充满热情的人建立联系。

作者介绍Max大郭

作者Max,一位在长春读应用心理学的大三本科生,社交自媒体平台专注于输出体育科技以及体育科学相关内容,期待未来有能力的基础下能加入更多基于人工智能的体育分析与科技。有其他科研合作的欢迎您的联系。

我比较喜欢体育科学、大语言模型以及AI相关的,平常运动喜欢篮球足球以及体能训练更加关注此方向的产品应用和创新。

有好的暑期项目欢迎并期待您的邀请(马上就是本科最后一年了)

(我有时候会看一些可穿戴设备、动作捕捉以及AI领域的科研、产品应用,欢迎交流,期待向各位学习!)

X:Baixin Guo

邮箱:gbx1220max@gmail.com返回搜狐,查看更多