×

最适合科研的人工智能工具有哪些?《Nature》指南

hqy hqy 发表于2025-03-03 15:24:22 浏览8 评论0百度已收录

抢沙发发表评论

有很多大型语言模型可供选择;有些在编程方面表现优秀,而有些则更擅长信息综合。

作者:伊丽莎白·吉布尼

来源:Lionel Bonaventure/法新社,图片通过Getty提供

一种新的、似乎更加令人印象深刻的人工智能(AI)工具几乎每周发布,研究人员纷纷涌向尝试这些工具。无论他们是想编辑手稿、写代码,还是生成假设,研究人员可以选择的生成性AI工具比以往任何时候都要多。

每个大型语言模型(LLM)都适用于不同的任务。有些可以通过免费的聊天机器人使用,而其他的则使用付费的应用程序接口(API),这意味着它们可以与其他软件集成。少数工具也可以下载,让研究人员可以构建他们自己的定制模型。

尽管LLMs产生类人化的回应,它们仍然过于容易出错,不能单独使用,弗雷德·哈钦森癌症中心的数据科学家凯丽·赖特说,中心总部位于华盛顿州西雅图。

那么,哪个LLM最适合什么任务?在这里,研究人员与《Nature》分享他们当前的最爱,帮助指导有需要的人。

o3-mini(推理模型)

总部位于加利福尼亚州旧金山的OpenAI2022年通过其免费的ChatGPT聊天机器人向世界介绍了LLMs。科学家们主要使用该机器人查找信息,或作为写作助手,例如起草摘要,但新模型正在拓展该技术的潜在用途。

去年九月,OpenAI凭借其o1‘推理模型让科学家们惊叹,这是公司自那时以来最重要的进展,随后在12月推出了更先进的o3模型。这两个推理模型的工作速度比单独的LLM慢,因为它们已经经过训练,以逐步方式回答查询。这种思维链条过程旨在模拟人类推理,帮助它们突破了科学和数学中的艰难基准。它也让它们在技术任务方面表现出色,例如解决编码问题和重新格式化数据。

在中国杭州一个鲜为人知的初创公司DeepSeek120日推出竞争对手推理模型后,OpenAI回应推出了一系列新工具。这些包括一个快速版的o3-mini,这是一个对注册的聊天机器人用户免费的推理模型,以及深度研究,它允许一些付费订阅者从数百个网站汇总信息并生成带有引用的报告,类似于进行文献综述。

这些模型在结合使用时表现出色,化学家兼AI专家安德鲁·怀特说,他是位于旧金山的初创公司FutureHouse的化学家和AI专家。

当涉及到诸如剖析新数学证明中的陌生概念时,o3-mini做得非常好,牛津大学的数学家和AI研究员西蒙·弗里德尔说。但即便是最好的模型,仍然远不能与数学家相提并论。

DeepSeek(全能型工具)

DeepSeek-R1 上个月发布,具备与 o1 相当的能力,但通过 API 提供,成本仅为 o1 的一小部分。它与 OpenAI 的模型不同,因为它是开放权重的,意味着虽然其训练数据尚未公开,任何人都可以下载底层模型,并根据特定的研究项目进行定制。White 表示,R1 “刚刚解锁了一种新范式,在这种范式下,特别是那些资源相对较少的社区,能够构建专门的推理模型。

运行完整模型需要强大的计算芯片,而许多学者缺乏这样的资源。但像香港中文大学(深圳)的计算机科学家王本友这样的研究人员,正在开发能够在单台机器上运行或训练的版本。像 o1 一样,DeepSeek-R1 的强项是数学问题和编写代码,但它在生成假设等任务上也表现得很出色,White 解释道。这是因为 DeepSeek 选择完全公开模型的思维过程,这使得研究人员能够更好地完善后续问题,最终提高模型输出的质量。他表示,这种透明度在医学诊断中也可能具有巨大的潜力。王本友正在调整 R1,进行实验,利用该模型类似推理的能力,构建从患者评估到诊断与治疗推荐的清晰且合逻辑的路径

DeepSeek-R1 也有一些缺点。该模型似乎有一个特别长的思维过程,这使得它变得较慢,且不太适合查找信息或进行头脑风暴。关于数据输入其 API 和聊天机器人的安全问题,导致多个政府禁止国家机构的工作人员使用该聊天机器人。DeepSeek 似乎也采取了比其商业竞争对手更少的措施来减少模型生成有害输出的风险。例如,增加过滤器来防止此类输出——如制造武器的指令——需要时间和精力。尽管这不太可能是故意为之,Simon 说,缺乏防护措施令人担忧

OpenAI 还表示,DeepSeek 可能不当蒸馏了其模型,指的是一种通过另一个算法的输出进行模型训练的方法,而 OpenAI 的使用条款对此是禁止的。

在本文发布之前,未能就这些批评获得 DeepSeek 的回应。

一些研究人员认为这种蒸馏方式很常见,并且乐意使用 R1,但另一些人则对使用可能面临未来诉讼的工具感到谨慎。EIT Manufacturing 巴黎分部的人工智能法律专家 Ana Catarina De Alencar 表示,如果使用该模型被认为违反期刊的伦理标准,使用 R1 的科学家可能会被迫撤回论文。De Alencar 还表示,OpenAI 和其他被指控侵犯知识产权的公司使用其模型的情况可能也面临类似的局面。新闻机构声称,这些公司未经许可使用新闻内容训练模型。

Llama(工作马)

Llama 长期以来一直是研究社区的首选 LLM。由 Meta AI 在加利福尼亚州门洛帕克发布的开放权重模型家族,Llama 的多个版本通过开源科学平台 Hugging Face 被下载超过 亿次。它可以被下载并加以改造的特性,可能是 Llama 被研究社区广泛接受的原因,”Fred Hutchinson Cancer Center 的数据科学家 Elizabeth Humphries 说。

在个人或机构服务器上运行 LLM 对于处理专有或受保护数据至关重要,以避免敏感信息反馈给其他用户或开发人员,Wright 说。

研究人员在 Llama 模型的基础上开发出了可以预测材料晶体结构的 LLM,并模拟量子计算机的输出。北卡罗来纳大学教堂山分校的机器学习科学家 Tianlong Chen 表示,Llama 非常适合用于模拟量子计算机,因为它相对容易适配以理解专门的量子语言。

但是,Llama 需要用户申请访问权限,这对一些人来说是一个小小的摩擦点,White 说。因此,其他开放模型,如由位于西雅图的艾伦人工智能研究所开发的 OLMo,或由位于杭州的中国公司阿里巴巴云开发的 Qwen,现在常常成为研究中的首选,他补充道。DeepSeek 高效的底层 V3 模型也是构建科学模型的一个竞争对手。

Claude(编码专家)

在硅谷,许多人推崇 Claude 3.5 Sonnet 用于编写代码,Simon 说。Claude 3.5 Sonnet 由位于旧金山的人工智能公司 Anthropic 开发,它不仅能理解文本,还能解读视觉信息,如图表和图形。此外,它还有一个模式,可以远程操作用户的计算机,可能使其能够控制其他软件。

Claude 模型在写作风格方面也获得了好评。Wright 说,当一些 LLM,如 ChatGPT,删除技术语言时,它们也可能删除重要的含义。Claude 模型则更擅长平滑文风,同时保留原有的意思。在使用该模型开始撰写资助提案或为代码做解释性注释时,这种特点是一个优势,她补充道。

Claude 3.5 Sonnet 在基于数据驱动科学任务的基准测试中表现优异,这些任务来自生物信息学和计算化学等领域的真实论文,俄亥俄州立大学的 AI 研究员 Huan Sun 说。尽管 Claude 3.5 Sonnet 作为在线聊天机器人可以免费使用,但与 OpenAI 的模型一样,研究人员只有通过付费 API 才能获得完全的集成。Sun 认为:随着越来越强大的开源模型的出现,我相信人们会更倾向于选择它们,而不是封闭源 API

Olmo(真正开放的模型)

想要深入理解 LLM 内部运作的研究人员,需要比 Llama 和 DeepSeek 提供的模型更透明的工具。开源模型不仅是开放权重的,还提供了算法的训练数据以及用于训练和评估模型的代码,Hugging Face 研究员 Lewis Tunstall 说。目前,这类模型中表现最好的就是 OLMo 2

研究这类模型使得研究人员能够追溯 LLM 中的偏见来源,并通过更好地理解算法如何得出输出,来提高效率。目前,任何开源模型的主要缺点是研究人员通常需要一些专业知识才能运行它们,但随着越来越多免费的实操课程提供给社区,入门门槛每天都在变得更低,”Tunstall 说。

他还指出,如果法院裁定在版权内容上训练 AI 是非法的,那么那些使用许可数据集进行训练的模型,例如 Hugging Face 主导的重新创建 DeepSeek-R1 的努力,可能是唯一可以安全使用的模型。

文章来源:doi: https://doi.org/10.1038/d41586-025-00437-0