×

机器学习在体育科学研究中的问题和改善意见

hqy hqy 发表于2025-04-30 15:29:00 浏览9 评论0百度已收录

抢沙发发表评论

Max大郭(备注:郭佰鑫)

一位运营着公众号体育科学和AI大模型爱好者,喜欢刷科技资讯的大学生

联系我:MaxGBX (欢迎科研、产品、自媒体合作交流)

摘要

监督式机器学习(ML)提供了一系列令人振奋的算法,有望为体育科学研究带来益处。原则上,监督式ML方法旨在进行纯粹的预测,而非解释,这导致了强大但不透明算法的兴起。最近,ML的两个子领域——可解释ML(让我们能够 “窥探黑箱”)和可诠释ML(鼓励使用本质上可解释的算法)越来越受欢迎。这些强大的ML算法透明度的提高,可能为假设演绎框架提供有力支持。在假设演绎框架中,假设是基于先前的信念和理论生成的,并通过专门为检验该假设而收集的数据进行评估。然而,本文阐述了为什么即使采用可解释或可诠释的方法,ML算法在根本上仍与统计方法不同。将监督式ML算法的潜在见解进行转化,尽管在许多情况下看似简单直接,但可能会面临意想不到的挑战。虽然监督式ML不能用于取代统计方法,但我们提出了体育科学界在假设演绎框架中利用监督式ML的方式。在本文中,我们认为监督式机器学习能够且应该增强我们在体育科学中的探索性研究,但在利用监督式ML算法的潜在见解时应谨慎行事。我们通过仔细研究监督式机器学习来论证我们的观点,并提供了一个有用的类比来阐明我们的发现。本文还提供了三个案例研究,以展示如何将监督式机器学习整合到探索性分析中。监督式机器学习应谨慎地整合到科学工作流程中。本文所描述的方法提供了安全利用机器学习优势的途径,例如ML算法在拟合复杂模式时的灵活性,同时避免潜在的陷阱,往轻了说会造成精力和资金的浪费,往重了说,在尝试将ML算法的结果整合到领域知识中时,可能会产生误导性的临床建议。

关键点

• 一些监督式机器学习算法和统计模型用于解决相同的问题,即(y=f(x)+\epsilon) ,但在动机和方法上存在根本差异。

• 假设演绎框架是构成科学方法的核心框架之一。在该框架中,假设是基于先前的信念和理论生成的,并通过专门为检验该假设而收集的数据进行评估。在假设演绎框架中,监督式机器学习可用于探索性研究。然而,即使可解释和可诠释的机器学习方法越来越受欢迎,它也无法取代统计方法的使用。

• 在假设演绎框架中不当使用监督式机器学习,相当于统计方法中的p值篡改。

有任何想法欢迎您私信或评论,有问题可以联系MaxGBX(我的微信)

文章比较长,希望各位有耐心阅读!我的文章同时也会发表到Linkedin和Medium上,欢迎你们也关注一下!

如果您认可我的内容的话,我非常希望您可以帮我转载/传播一下,让更多人了解前沿的文献/产品相关资讯!大郭在这里抱拳了

我联系方式放在文末了!

欢迎大家到腾讯元宝首页或公众号后台与我个人创建的AI智能体对话!(知识库是使用的我的公众号文章)

▼ 有好的暑期项目欢迎联系,可远程/线下(有护照,可以办签证)

机器学习在体育科学研究中的应用:机遇与挑战

在当今科技飞速发展的时代,机器学习(Machine Learning,ML)已经渗透到各个领域,体育科学也不例外。今天,我们要深入探讨一篇发表于Sports Medicine - Open期刊的论文,标题为“On Leveraging Machine Learning in Sport Science in the Hypothetico-deductive Framework”,看看机器学习在体育科学的假设演绎框架中扮演着怎样的角色。

一、核心概念科普

在深入解读论文前,先为大家科普一些关键概念。

机器学习(ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。简单来说,就是让计算机通过大量数据“学习”规律,进而进行预测或决策。常见的机器学习类型有监督学习、无监督学习、半监督学习等。例如,在体育赛事预测中,利用以往比赛数据训练模型,让模型学习各因素与比赛结果的关系,从而预测未来比赛胜负,这就是监督学习的应用。

监督式机器学习(Supervised Machine Learning):是机器学习中的一种类型。在这种学习方式中,数据集中既有输入变量(也叫特征或预测变量),又有对应的输出变量(也叫目标变量或标签)。算法通过学习输入和输出之间的关系,构建模型,进而对新的输入数据进行预测。以预测运动员是否会受伤为例,输入变量可以是运动员的年龄、训练强度、身体指标等,输出变量则是是否受伤(“是”或“否”)。常见的监督式机器学习算法包括决策树、支持向量机、随机森林等。

假设演绎框架(Hypothetico-deductive Framework):是科学研究的重要方法之一。研究者基于已有的知识、理论和经验提出假设,然后设计实验或收集数据来检验这个假设。如果数据支持假设,那么假设就得到了一定程度的验证;如果数据不支持,就需要重新审视假设或改进研究方法。例如,在研究某种训练方法对提高运动员成绩的影响时,先假设该训练方法能显著提高成绩,然后选取两组运动员,一组采用新训练方法,另一组采用传统方法,对比两组成绩来验证假设。

二、文章主要结构及内容

这篇论文结构清晰,主要围绕机器学习在体育科学假设演绎框架中的应用展开论述。文章开篇介绍研究背景,引出核心议题;接着阐述相关理论基础,对比统计方法与机器学习的差异;然后提出在假设演绎框架中使用监督式机器学习的方法,并通过案例研究进行验证;之后深入讨论应用中存在的问题;最后得出结论并给出研究建议。

(一)研究背景

在体育科学研究领域,探索运动相关现象背后的规律是关键目标。例如,研究人员试图找出运动过程中的哪些因素与运动后的疼痛程度相关。传统的统计方法常通过构建类似(y=f(x)+\epsilon)的模型来探索这种关系((y)代表结果变量,如运动后疼痛程度;(x)代表自变量,如运动的某个方面;(\epsilon)代表误差项)。在经典统计学方法中,科学家会明确描述函数(f(x))的形式,包括变量的线性关系、变量间的相互作用以及变量的选取,再通过分析变量的系数来判断其对结果的影响是否显著。

近年来,机器学习作为一种新兴技术,在科学界备受关注。其中,监督式机器学习算法在表达预测问题时,形式与上述统计模型相似,同样是(y=f(x)+\epsilon) 。然而,机器学习算法最初是为“纯预测”问题设计的,重点在于获取准确的预测结果,而对解释变量之间的关系重视不足。虽然机器学习为科学研究提供了强大的工具,但在假设演绎框架下使用时,面临诸多挑战。比如,其算法的“黑箱”特性使得结果难以解释,即便近年来可解释和可诠释的机器学习技术有所发展,在将机器学习算法的潜在见解转化为科学上可靠的解释性模型时,仍存在困难。

(二)机器学习在体育科学中的应用现状

应用广泛但质量参差不齐:在体育科学领域,机器学习的应用愈发普遍,尤其在运动员监测和运动损伤预测方面。不过,实际应用效果却不尽人意。一项2021年的系统综述评估了11篇运用机器学习预测运动损伤的文章,研究发现这些文章中机器学习方法的预测性能差异极大,受试者工作特征曲线下面积(AUC)从较差的0.52到较强的0.87不等。而且,这些研究的质量大多处于极低到中等水平。

方法和解释存在挑战:在实际运用机器学习算法时,合理的方法选择和结果解释是巨大的挑战。上述11篇文章在构建机器学习算法时,无法将所得算法与损伤的理论基础相联系。部分原因是算法过于复杂,难以解释,即使是像决策树这样看似“可解释”的算法也存在问题;还有部分原因是无法从整体模型的角度解释某些变量或变量间的相互作用。例如,在预测运动损伤的模型中,可能检测到某些细微的运动差异与损伤有关,但这些差异在临床上可能并不具有实际意义,也无法影响临床决策。

(三)机器学习的子领域

机器学习是一个庞大的领域,包含多个相互重叠的子领域,与本文相关的主要有以下几个:

▼ 嘻嘻最近学的新代码,搞个图给大家看看

监督式学习(Supervised ML):在这个子领域中,数据包含一组预测变量和一个或多个结果变量。例如,在研究运动员受伤情况时,运动员的身体特征、训练强度、运动项目等可作为预测变量,而是否受伤则是结果变量。监督式学习应用广泛,像大语言模型在训练时就会用到这种方法,根据上下文预测下一个单词。

无监督学习(Unsupervised ML):与监督式学习不同,无监督学习在训练时不使用结果变量,而是在“预测变量”集合中寻找结构。比如通过聚类分析,将具有相似特征的运动员归为一组。但需要注意的是,找到的结构不一定具有科学意义,而且无监督学习对数据预处理(如变量选择、标准化、异常值去除等)较为敏感,可能会增加数据窥探和确认偏差的风险。

半监督学习(Semi-supervised learning):结合了监督学习和无监督学习的特点,同时使用有标签和无标签的数据进行训练。通常情况下,无标签数据的数量远多于有标签数据。半监督学习的目的是利用无标签数据提升监督算法的预测能力,或者借助有标签数据提高无监督算法的性能。

因果机器学习(Causal ML):主要用于因果推断,将机器学习应用于统计因果模型的相关部分。例如在匹配过程中,使用机器学习算法来估计倾向得分或处理权重的逆概率。不过,因果机器学习是一个相对较新的领域,通常需要与成熟的统计方法结合使用。

可解释机器学习(Explainable ML):这是一种用于理解黑箱算法如何利用数据进行预测的后处理技术。通过一些方法,如特征重要性分析、部分依赖图、Shapley值等,试图解释算法的决策过程。但这些解释技术有时可能会产生误导,因此从可解释机器学习中获得的潜在见解需要从科学的角度进行仔细审查。

可诠释机器学习(Interpretable ML):使用本身就具有可解释性的模型,如决策树、逻辑回归和LASSO(最小绝对收缩和选择算子)。在许多情况下,可诠释机器学习被认为比可解释机器学习更可靠。然而,可诠释机器学习模型的性能可能依赖于成功的特征工程,而且在构建和添加特征以提高算法预测能力时,可能会增加 “指标篡改” 的风险。

(四)在假设演绎框架中使用监督式机器学习的方法

为了在假设演绎框架中安全、有效地使用监督式机器学习,作者提出了“一步法”和“两步法”。这两种方法的核心目的都是利用监督式机器学习为未来研究生成可测试的假设。

一步法:首先,运用监督式机器学习算法对现有数据进行分析,从而为未来的研究方向提供建议。然后,研究人员根据这些建议,结合特定领域的知识和背景,构建一个可测试的假设。最后,建立统计模型或采用合适的统计方法,将假设融入现有的领域知识体系,并在当前数据集上对模型进行“合理性检查”。需要注意的是,这个“合理性检查”并非通常意义上的良好实践,它只是为了确保在当前数据条件下,假设具有一定的合理性。如果无法通过合适的统计模型在当前数据集上验证假设,那么在新的数据集中验证该假设的可能性也较低,此时研究人员应谨慎对待该假设。

两步法:是一步法的扩展,适用于数据量充足且研究人员希望在设计新实验和收集新数据之前增加更多保障措施的情况。第一步与一步法相同,使用监督式机器学习算法分析数据并提供建议。第二步,在构建假设后,将数据集划分为两部分,一部分用于训练机器学习模型,另一部分用于对基于机器学习算法启发构建的统计模型进行中间测试。这样可以在一定程度上检验假设的合理性,但需要注意的是,这部分数据并非专门为检验该假设而收集,所以在解释统计分析结果时要谨慎,不能将其视为独立的分析。最终,还是需要收集新的数据来全面检验假设。

(五)案例研究

论文通过三个案例研究,展示了监督式机器学习在体育科学中的实际应用,以及“一步法”和“两步法”的操作过程和效果。

跑步者运动相关小腿疼痛的特征分析:传统上,对受伤跑步者的步态评估在实验室进行,分析有限步数的生物力学特征,使用简单统计分析建模。本研究采用可穿戴技术,收集受伤(患运动相关小腿疼痛,ERLLP)和未受伤跑步者在自然跑步场景下一周训练的运动数据,获取更具生态学效度的大量数据。

应用“两步法”:用监督式ML分析一半数据集(32名参与者),将传感器生物力学数据输入TSFresh程序,提取1200多个特征,找出区分受伤和未受伤跑步组的关键特征,如接触时间相关特征。这些结果为分析另一半数据集提供方向,通过协方差分析和接触时间指标的近似熵分析,更精准评估临床人群感兴趣的结果。

大学篮球队运动员监测数据中的特征重要性分析:运动员监测领域数据收集量和类型大幅增加,但利用监督式ML进行损伤预测并不简单。研究收集13名男性大学篮球运动员休赛期和季前赛数据,包括外部负荷、准备度和运动员自我报告测量数据。

实施“两步法”:用随机森林、有序森林和支持向量机等算法分析休赛期数据,以均方误差确定最佳算法,从最佳算法的各变量组中选一个变量,如减速次数、峰值功率时的力和自我报告的身体表现能力(PPC),在季前赛数据中构建逻辑回归预测肌肉酸痛情况。结果仅PPC的二项逻辑回归显著,模型显示PPC每增加1分,肌肉酸痛高于平均水平的几率降低57% 。后续研究者需思考PPC在篮球和团队训练结构中的临床效用,再设计新研究收集新数据进一步评估。

精英足球(足球)运动员过度使用的特征预测:该案例采用“一步法”,研究跟踪精英青年足球运动员一个赛季,用赛季初测量的特征预测受伤情况和类型。使用极端梯度提升算法有较好预测结果。

基于算法结果提出新假设:分析特征重要性发现,除年龄外,移动侧向任务表现、20米冲刺时间和左转t检验是重要变量。结合领域知识,提出潜在生理因素“髋部力量”可能与这些测试成绩相关且影响受伤类型。可基于此设计新的假设驱动研究,评估髋部力量测试在预测运动员受伤风险中的作用。还可通过调整变量重新运行算法,如去掉上述三个变量后,若与髋部力量相关的立定跳远变量重要性上升,可进一步支持新研究假设。

(六)讨论:机器学习在假设演绎框架中的应用

与统计方法的本质区别:统计模型和监督式ML算法虽都试图找到满足的函数,但侧重点不同。统计方法关注“如何”解释变量之间的关系,即确定哪些变量、非线性关系和相互作用包含在真实的数据生成过程中,以揭示变量的变化如何与变量的变化相联系。而机器学习历史上主要关注“能否”预测,更注重找到能对进行良好预测的函数,不太在意函数是否符合科学原理。

约束方式与结果解释:在约束函数方面,经典统计通过科学家选择函数形式(如确定变量、非线性和相互作用)来约束,以分离研究效应并控制混杂因素。机器学习则通过选择算法和算法设置来控制函数的灵活性,算法从能近似多种函数形式开始,通过数值优化找到“最佳”函数,平衡预测准确性和灵活性约束。这导致机器学习结果在解释时面临挑战,例如使用LASSO算法选择变量基于数值最优,而非科学家明确选择,解释时需考虑多种复杂因素,如确定ML算法中的变量变化与统计模型的关系等。

可解释性的局限:尽管可解释和可诠释的机器学习有所发展,但在假设演绎框架中仍存在问题。即使通过一些方法(如特征重要性分析)获得算法的高层次信息,也可能忽略变量在算法中具体的使用方式,以及是否需要其他变量来准确描述变量与结果的关系,这种情况被称为“结构无知”。实现完全可解释性或可诠释性也不能直接用监督式ML替代统计方法,否则可能类似“p值篡改”,在假设演绎框架中属于不良科学行为。

(七)结论

监督式ML在纯预测问题上是强大的工具,在假设演绎框架中恰当使用也能发挥作用,但需谨慎。在决定是否使用ML解决特定问题时,需综合考量多种因素。本文研究表明,监督式ML虽不能直接应用于假设演绎框架,但可通过“一步法”和“两步法”等方式,在探索性研究中发挥作用。 机器学习算法的普及使研究人员容易获取这些工具,但不能忽视其在假设演绎框架中应用的复杂性和风险。在临床科学等领域,不加控制地应用可能导致严重后果。因此,研究人员应采用团队科学的方法,促进领域专家、统计学家、数据科学家和工程师的合作,以更可靠地推进科学研究。

(八)对审稿人和编辑的建议

论文还对审稿人和编辑提出了建议,以更好地评估使用机器学习算法的研究。如果论文使用了机器学习算法,应明确说明算法的主要目的(如纯预测或探索性研究),并证明其使用的合理性;清晰记录拟合和测试算法以及提取见解的过程;明确探索性见解的后续跟进情况。编辑方面,统计评审委员会应包含熟悉机器学习优缺点的成员;尽可能提供代码(最好托管在Github、Gitlab等平台)和数据,帮助审稿人和读者理解研究中的选择及其影响。

(九)文章图表解读

图1:监督式机器学习方法流程图

流程概述:该图展示了“一步法”和“两步法”的流程。左侧部分是针对现有数据的处理,右侧部分则是在新数据集上对假设进行测试。

一步法流程:从现有数据出发,直接进行带有机器学习的探索性分析,基于分析结果构建假设,接着构建统计模型进行确认性分析,并不断完善之前的模型。例如在研究运动员运动表现影响因素时,先利用机器学习算法分析现有运动员训练和比赛数据,找出可能相关的因素,然后构建统计模型,如回归模型,验证这些因素与运动表现之间的关系。

两步法流程:同样从现有数据开始,将数据进行拆分。一部分数据用于带有机器学习的探索性分析,之后构建假设;另一部分数据用于统计模型分析,在新数据上对假设进行初步检验,最后也需要构建统计模型进行确认性分析和模型完善。比如在分析运动损伤风险因素时,将现有运动员数据分为两部分,一部分用于机器学习算法挖掘可能的风险因素,另一部分用于检验基于这些因素构建的统计模型的有效性 。

图2:机器学习对审稿人和编辑的指导

审稿要点:主要围绕论文中机器学习算法的使用是否规范、合理。要求明确算法目的并说明使用原因,详细记录算法拟合、测试和提取见解的过程,还要清晰阐述从机器学习算法中获得的探索性见解的后续处理情况,是打算进一步研究,还是已纳入统计模型评估,或是在新研究中进行测试等。

编辑职责:编辑在处理涉及机器学习的稿件时,要确保统计评审委员会中有熟悉机器学习的专业人员,以便从专业角度评估研究。同时,鼓励作者提供代码和数据,这样审稿人和读者能更好地理解研究过程中数据预处理和分析方法选择的意义,从而更准确地评估研究的可靠性和价值。

▼ 我翻译了一下哈哈,因为我比较喜欢紫色

(十)研究贡献与未来展望

研究贡献:这篇论文为体育科学研究中使用监督式机器学习提供了全面的指导框架。它清晰地阐述了监督式机器学习与传统统计方法的差异,使研究人员能更准确地认识机器学习在假设演绎框架中的定位。提出的“一步法”和“两步法”为研究人员提供了切实可行的操作方法,帮助他们在利用机器学习强大功能的同时,有效避免潜在风险,如“指标篡改”等问题。对审稿人和编辑的建议,有助于提高体育科学领域中机器学习相关研究的质量和规范性,促进该领域研究的健康发展。

未来展望:尽管论文对当前监督式机器学习在体育科学假设演绎框架中的应用进行了深入探讨,但仍有许多问题有待进一步研究。例如,如何更精准地确定机器学习在体育科学不同研究问题中的适用性;在实际应用中,如何进一步优化“一步法”和“两步法”,提高其效率和准确性;随着机器学习技术的不断发展,新的算法和方法不断涌现,如何将这些新进展更好地融入体育科学研究等。未来的研究可以朝着这些方向展开,进一步推动体育科学与机器学习的深度融合,为体育科学研究带来更多创新成果。

作者介绍Max大郭

作者Max,一位在长春读应用心理学的大三本科生,社交自媒体平台专注于输出体育科技以及体育科学相关内容,期待未来有能力的基础下能加入更多基于人工智能的体育分析与科技。有其他科研合作的欢迎您的联系。

我比较喜欢体育科学、大语言模型以及AI相关的,平常运动喜欢篮球足球以及体能训练更加关注此方向的产品应用和创新。

有好的暑期项目欢迎并期待您的邀请(马上就是本科最后一年了)

(我有时候会看一些可穿戴设备、动作捕捉以及AI领域的科研、产品应用,欢迎交流,期待向各位学习!)

X:Baixin Guo

邮箱:gbx1220max@gmail.com返回搜狐,查看更多