×

如何判断大语言模型是否在欺骗你,请阅读这份实用指南

hqy hqy 发表于2025-08-07 10:59:41 浏览2 评论0百度已收录

抢沙发发表评论

作者:Subha Ganapathi 发布于2025年7月15日翻译:DGTIK校对:zrx

本文约3400字,建议阅读10+分钟

无论商业智能还是在大语言模型,一旦脱离了背景上下文只考虑数据和指标,悖论就会乘虚而入。

图源自Luke Chesser,Unsplash

概述

大语言模型(LLM)输出的悖论(即前后矛盾),不仅是视觉迷惑或脑筋急转弯,还有可能是逻辑陷阱:初看成立,细究就碎。在数据科学领域,如果我们只看数字表面、不细看上下文逻辑,悖论就会即刻登场,任你图表做得再炫酷,解读错误,也是白搭。

因此,本文将通过讨论三大逻辑悖论:辛普森悖论、准确率悖论和古德哈特定律,专为给“秒看数据,不看背景”的人打好预防针,首先在商业智能与数据科学场景中进行案例复盘,再到检索增强生成(RAG)模型进行阐述,最后揭示这些悖论是如何同时影响大语言模型(LLM)的提示词质量与模型输出。

商业智能中的“辛普森悖论”

辛普森悖论(Simpson’s paradox),即在单个种类分析时,趋势挺明显,但所有种类合并一起看,则可能完全不同。以一家热门冰激凌连锁店的四个门店的销售数据为例(下图所示),单独分析,巧克力口味遥遥领先;合并数据后,却发现香草成为最受欢迎的口味。这种现象就是经典的趋势反转,称为辛普森悖论。

表内为作者提供的虚拟销售数据

下图展现更为直观的反转过程:

商业智能报告中的辛普森悖论示意图(作者提供)

如果数据分析师忽视子组差异,就可能误判巧克力“滞销”。因此,汇总数据前务必按子组拆分,排查辛普森悖论存在的可能,一旦发现趋势反转,下一步就是揪出“潜伏变量”:暗中左右结果的幕后黑手,本案例中的门店位置便是潜伏变量,机场门店的香草为何大卖,需关联上下文进行解读,比如:

机场门店是否存在巧克力SKU(品种)更少的情况?旅客是否喜好清淡口味?机场门店近期是否进行香草促销?

RAG模型中的“辛普森悖论”

假设你构建了一个检索增强生成(RAG)模型,用于解答公众对电动汽车(EVs)的疑问。该模型使用从2010年至2024年的新闻报道进行训练。众所周知,2016年关于电动车的评价褒贬不一:续航有限、价格较高、充电站少,长途驾驶几乎不可能,新闻报道频繁强调缺陷问题。然而,自2017年起,趋势分界线出现,随着性能提升和充电设施完善,电动汽车逐渐获得正面评价,尤其是在特斯拉推出高端车型后,转变趋势尤为明显。利用时间跨度长达15年的新闻资料,模型可能会给出相互矛盾的答案,这种情况正是辛普森悖论的典型表现。

举例来说,如果RAG被问到“美国的电动汽车使用率仍然很低吗?”,答案可能是“是的,由于高昂的购买成本和有限的基础设施,使用率仍然很低”。然而,被问到“最近美国的电动汽车使用率是否有所增加?”,答案将是“是的,由于技术和充电基础设施的进步,使用率大幅增加”。这是一个非常明显的前后矛盾,美国的电动汽车使用率的最近发展情况,取决于RAG用哪年发布的新闻报道,解决此问题的方法,首先是在模型预处理阶段将文档(文章)标记为基于时间的类别,其次是鼓励用户在提示词中明确时间范围(比如,在过去五年中,电动汽车的使用情况如何?),再就是微调LLM以明确说明其考虑的时间线(比如,2024年左右,电动汽车的使用率大幅增加)。

RAG中的辛普森悖论:美国的电动汽车使用率具体如何(作者提供)

数据科学中的准确率悖论

悖论的核心在于:高准确率不一定意味着模型有用。假设你在构建一个分类模型,用来检测某种疾病(患病概率为1%),模型可能对大部分没有疾病的患者都能正确识别,准确率高达99%,唯独漏掉那唯一真正需要紧急救治的患者,那么这个模型就属于没达到疾病检测目的,这种情况在不平衡的数据集中尤为常见:少数类别的样本数量极少,参照下图所示。

数据科学中的准确率悖论(作者提供)

解决准确率悖论的关键在于,采用更能反映少数类别表现的指标,比如精准率、召回率和F1分数(评估二分类统计模型的性能指标)等,另一种思路是将不平衡的数据集视为异常检测问题,而非传统分类,还可通过收集更多的少数类样本(如果条件允许的话)、对少数类进行过采样、对多数类进行欠采样来平衡数据。

下图是一份快速指南,可根据具体用途、目标和误判后果来选择合适的评价指标。

为模型的性能测量选择合适的指标(作者提供)

大语言模型中的准确率悖论

虽然准确率悖论广为人知,但其在大语言模型(LLM)中的影响往往被忽视。单纯追求高准确率可能带来隐患,尤其在安全、毒性检测和偏见治理等大语言模型安全检测的关键场景中。一个模型即便准确精度达到98%,但如果它把两个恶意请求误判为安全无害,那就毫无意义。因此,在评价LLM时,建议优先采用召回率、精准率或PR-AUC指标,以便更有效地衡量大语言模型对少数类的处理能力。

商业智能中的古德哈特定律

经济学家查尔斯·古德哈特指出:“当指标变成目标,它就不再是一个好的指标。”这句话提醒了我们,盲目追求指标数值而忽视其背后的含义和上下文背景,将会适得其反。

比如,一家新闻网站管理者为团队设定KPI:提升用户会话时长20%。团队为了达成目标,可能会加入大量“填充内容”或虚假延长导语,会话时长的确增加了,但内容质量反而下降,用户的实际体验感和价值却受到了伤害。

另一个案例是关于客户流失,为了降低流失率,一款基于订阅娱乐的应用将“退订”按钮放在页面上不起眼的位置,表面上,用户退订数量变少了,但实际并未提升其满意度,只是“伪装”的留存效果。类似还有,为了迎合增长目标(比如延长会话时长、提升用户黏性)而使用的“刷数据”的手段,虽然在指标上看似表现优异,但实际上对用户体验提升也是毫无意义。

古德哈特法则示意图(作者提供)

大语言模型中的古德哈特定律

对大语言模型进行过度训练,特别是在单一基准数据上,可能导致模型“死记硬背”而非真正理解,即过拟合。这样将导致模型在训练集上的表现可能极佳,但在面对真实应用场景时却表现糟糕。

就以新闻摘要为例,假设你在训练一个大语言模型来总结新闻报道,训练过程中如果过度依赖ROUGE指标(基于召回率的自动评估方法),模型可能会“死记硬背”大量原文短语,试图获得更高的ROUGE分数(判断生成文本和参考文本的相似性),还在参考摘要中使用频繁出现的流行词汇。比如输入文本“银行提高利率以遏制通胀,将导致股价急剧下跌”,拟合模型会将其总结为“银行提高了利率以遏制通货膨胀”,明显忽略了内容的整体逻辑。而一个真正具有概括能力的模型则会总结为“加息引发了股市下跌”,相比起来更具启发性总结。下图充分展示了如何过度优化模型以适应评估指标,将可能导致低质量的输出(训练结果看起来不错但无实际作用)。

大语言模型中的古德哈特定律示意图(作者提供)

总结

无论商业智能还是在大语言模型,一旦脱离了背景上下文只考虑数据和指标,悖论就会乘虚而入。别忘了过拟合也会破坏全局,只有把定量分析与人性洞察结合起来,才能避雷,这对创建既靠谱又能真正提供价值的大语言模型与报告来说至关重要。

原文链接:https://towardsdatascience.com/how-metrics-and-llms-can-trick-you-a-field-guide-to-paradoxes/