×

Nature:地球系统大模型突破多项环境预测瓶颈

hqy hqy 发表于2025-07-07 18:46:45 浏览1 评论0百度已收录

抢沙发发表评论

摘要

对地球系统的可靠预测是减轻自然灾害、支持人类发展的重要基础。尽管传统数值模型功能强大,但其计算成本极高。人工智能(AI)的最新进展已显示出在提升预测性能和效率方面的潜力,但在许多地球系统领域中,其潜力仍未得到充分挖掘。本文提出的Aurora模型,通过超过一百万小时的多源地球物理数据训练,构建了一个大规模基础模型。在空气质量预测、海浪预报、热带气旋路径追踪和高分辨率天气预报方面,该模型不仅显著超越现行业务预报系统,计算成本却降低了数个量级。凭借以较低成本即可针对不同应用进行微调的优势,Aurora标志着人类向普及高精度、高效率的地球系统预测迈出了重要一步。这些突破性成果彰显了人工智能在环境预测领域的变革潜力,为更广泛获取高质量气候与气象信息开辟了新路径。

关键词:地球系统预测(Earth system prediction)、基础模型(Foundation Model)、Aurora、人工智能(AI)、空气质量预测(air quality forecasting)、海浪预报(ocean wave modeling)、热带气旋追踪(tropical cyclone tracking)、高分辨率天气预报(high-resolution weather forecasting)

彭晨丨作者

论文题目:A foundation model for the Earth system

论文链接:https://www.nature.com/articles/s41586-025-09005-y

发表时间:2025年5月21日

论文来源:Nature

地球系统预测是应对自然灾害和保障人类社会发展的重要工具,但传统数值模型依赖超级计算机和复杂的物理方程,计算成本高昂且改进缓慢。近年来,AI技术虽在天气预报等领域初露锋芒,但在海洋动力学、大气化学等关键领域仍存在空白。2025年5月,Nature 杂志报道了微软研究院团队开发的Aurora——首个覆盖多领域的地球系统基础模型,其在空气质量、海浪、热带气旋路径和高分辨率天气预测中均超越传统模型,计算效率提升达十万倍,为环境预测的民主化迈出关键一步。

Aurora架构:统一编码的3D时空建模

Aurora的核心设计灵感源于自然语言和多模态基础模型,包含三大模块:

三维感知编码器(3D Perceiver encoder):将不同分辨率、变量(如温度、气压)和压力层的数据映射为统一的三维潜空间表示,通过傅里叶编码捕捉空间位置和尺度特征。

三维Swin Transformer处理器:采用层级式窗口注意力机制,模拟地球流体动力学中的局部相互作用,并通过U-Net结构实现多尺度特征融合。

动态解码器:将潜变量反向映射为任意目标变量和分辨率的预测结果,支持缺失数据建模(如海浪数据在陆地上的空白)

图 1. Aurora是一个包含13亿个参数的地球系统基础模型。a, Aurora在不同分辨率、变量和压力水平的多个异构数据集上进行预训练。然后对模型进行微调,以适应不同分辨率的几种业务预测情景:0.4°的大气化学和空气质量,0.25°的波浪模拟,0.25°的飓风跟踪和0.1°的天气预报。b,Aurora是一个灵活的3D旋转变压器,具有基于3D感知器的大气编码器和解码器。该模型能够提取具有不同空间分辨率、压力水平和变量数量的输入。

这种“预训练-微调”范式使Aurora能够从百万小时异构数据(包括气候模拟、再分析和实时预报)中学习通用规律,仅需2.5周预训练即可快速适配下游任务。

突破性应用:从污染到飓风的全面超越

空气质量预测

传统大气化学模型需解算数百个刚性方程,而Aurora在CAMS数据集上微调后,5天全球空气质量预测(0.4°分辨率)在74%指标上超越传统模型。例如,2022年中东沙尘暴事件中,Aurora提前24小时准确预测PM10浓度峰值,与耗资巨大的数值模拟结果高度一致,耗时仅0.6秒/预测步长。

图 2.在实际操作环境中,Aurora在大多数比较中与CAMS相匹配或优于CAMS,而计算成本要小得多。a,Aurora对TC NO2的预测准确地预测了CAMS分析。由于大气气体的空间异质性,对其进行正确预测极具挑战性。特别是,与大多数空气污染变量一样,二氧化氮在人为排放大的地区(如东亚人口稠密地区)倾向于高值。NO2表现出强烈的日循环;例如,阳光通过一种称为光解的过程降低背景二氧化氮水平。Aurora准确地捕捉到了极端和背景水平。Aurora和CAMS25预报是在2022年9月1日00 UTC用CAMS分析初始化的。b、在所有预测时间中,Aurora在74%的目标上达到或超过CAMS。c、在3天的预测时间内,Aurora在89%的变量上与CAMS匹配或优于CAMS。

海浪预报

针对海浪方向谱和风浪耦合的复杂性,Aurora在HRES-WAM数据中引入“密度通道”标记缺失值,10天海浪预报(0.25°分辨率)在86%指标上优于欧洲中期天气预报中心(ECMWF)的高分辨率模型。2022年台风“南玛都”期间,其预测的显著波高和平均波向与实测误差不足5%。

图 3. 在实际操作中,在大多数对比中,Aurora与HRES-WAM相匹配或优于HRES-WAM。a,Aurora准确预测了2022年最强烈的热带气旋——台风南玛都的重要波高和平均波向。红框表示台风的位置,数字是高峰有效波高。Aurora的预测和HRES-WAM分析是针对2022年9月17日12 UTC,当时台风南玛都达到峰值强度。b、在所有的预测时间中,极光在86%的波动变量上与HRES-WAM匹配或优于HRES-WAM。c、在3天的预测期内,Aurora在91%的地表变量上与HRES-WAM匹配或优于HRES-WAM。

热带气旋追踪:单模型击败人类专家共识

传统飓风路径预测依赖多模型集成和人工修正,而Aurora在未针对气旋微调的情况下,仅通过海平面气压场的最小值追踪,即在大西洋、西北太平洋等区域5天路径预测中全面超越七大官方机构。以2023年台风“Doksuri”为例,Aurora提前4天准确预测菲律宾登陆,而多数官方模型误判为台湾海峡通过。

图 4. Aurora比世界上几个机构和地区的最先进的热带气旋预测系统表现更好。a,Aurora在不同地区比几个机构获得更好的轨道预测MAE。官方预测由OFCL、PGTW、CWA、BABJ、RJTD、RKSL和BoM(黑体)提供。对于北大西洋和东太平洋,我们还比较了创建OFCL时使用的各种模型(非粗体)。模型并不总是进行预测,这意味着对不同的数据计算不同的列。因此,列并不表示模型性能,而仅表示与Aurora相比的性能。这里的“≈”表示单元格的95%置信区间包含零。平均而言,Aurora在北大西洋和东太平洋地区比其他机构好20%,在西北太平洋地区好18%,在澳大利亚地区好24%。b、七月二十一日,一个热带低气压增强为热带风暴,并命名为台风“Doksuri”。台风“Doksuri”将成为迄今为止最“昂贵”的太平洋台风,造成超过280亿美元的损失。黑线表示从ibtracs中提取的真地路径。Aurora准确预测台风“Doksuri”将在菲律宾北部登陆,而PGTW则预测它将经过台湾。

0.1°天气预测:极端天气的精细刻画

现有AI天气模型局限于0.25°分辨率,Aurora通过融合2016年后的0.1°数据,首次在10天预报中实现92%变量超越ECMWF的HRES系统。2023年欧洲风暴“夏兰”期间,Aurora精准捕捉35.2 m/s的阵风峰值,而其他AI模型均低估强度,验证了其对小尺度对流过程的建模能力。

通向地球数字孪生的钥匙

Aurora的突破不仅在于性能提升,更在于其低成本可扩展性:每个下游任务的微调仅需4-8周,而传统模型开发需数年。未来,通过集成观测数据同化(data assimilation)和物理约束,Aurora有望实现“端到端”预测,并扩展至海冰、生态等场景。研究团队指出,模型的“黑箱”特性仍是挑战,但初步可视化显示,其注意力机制能够自发捕捉急流、涡旋等关键气象结构。随着计算与数据规模的持续扩展,地球系统的数字孪生或将走进现实。

推荐读书会

集智俱乐部「地球系统科学第二季」主题读书会中,叶杰平教授介绍了一个面向地球科学家的开源大语言模型GeoGPT,该模型基于领先的开源大型语言模型构建,具备多项核心能力,包括从地球科学文献中提取关键信息、实现问答交互、进行逻辑推理、自动生成代码以及开展数值计算与分析。本次分享老师对GeoGPT架构进行了详细介绍,并分享他们的开发经验与使用方法。感兴趣的朋友可以扫码查看视频:

地球系统科学读书会

世界气象组织《2023年全球气候状况》报告确认2023年是有观测记录以来最暖的一年。气候变化正在以高温、干旱、洪水、野火和沙尘暴等极端天气的形式吸引人们的广泛关注。世界经济论坛《2024全球风险报告》将气候变化作为首要值得关注的风险。地球作为一个多要素、非线性的开放复杂系统,要素间相互作用关系复杂,往往牵一发而动全身。在人类活动深刻影响下,我们该如何理解并有效应对正在面临的气候变化以及其带来的社会经济等一系列议题,实现人类与地球的可持续发展?为了能够深入理解人类世背景下地球系统各要素之间复杂的相互作用与演化机制,并为人类应对未来的地球系统科学重大挑战提供一套科学的认知框架,集智俱乐部联合清华大学讲席教授陈德亮、北京师范大学教授樊京芳、东莞理工学院特聘副研究员陈爱芳、南开大学副教授戴启立老师和爱尔兰都柏林大学博士生班崭共同发起「地球系统科学」系列读书会第二季,将组织大家从新的研究范式出发梳理相关文献,并深入研读其中涉及的理论与模型。

详情请见:地球系统科学新范式:复杂科学与人工智能交叉前沿 | 读书会启动

4. 5.