2025年高考正火热进行,数学考完后“数学难不难”话题迅速登上热搜。作为科技编辑,让七家主流大模型化身“高考学子”挑战高考数学全国1卷。参与的大模型有DeepSeek R1 0528、通义千问Qwen3 - 235B - A22B等。 因网络试题版本多且不完整,采用多版本交叉验证和老师解题验证评测,还邀请专业评分老师辅助评分。从部分题目作答看,不同题目各模型表现有差异。总体得分上,DeepSeek以143分夺冠,讯飞星火141分居次,GPT o3 138分排第三,仅这两家超140分。不过,DeepSeek存在OCR识别效果差、推理慢等问题;讯飞星火版本较早、模型量级小却取得高分,且基于全国产算力平台训练。国产大模型如豆包、通义千问和国际顶尖模型水平相当。那未来AI能否全面助力教育,大家怎么看呢?