×

剑指学术搜索痛点,深势科技发首个“读算做”全流程AI科研平台!

hqy hqy 发表于2025-04-26 02:43:45 浏览12 评论0百度已收录

抢沙发发表评论

作者 | 程茜

编辑 | 心缘

智东西 4 月 10 日报道,深势科技发布全球首个覆盖 " 读文献 - 做计算 - 做实验 - 多学科协同 " 全流程的 AI 科研平台玻尔科研空间站,并上线了科研知识库与 AI 学术搜索平台科学导航(Science Navigator),这一平台已覆盖全球 1.6 亿篇文献。

据了解,科学导航由深势科技联合北京科学智能研究院打造。该平台可以系统性解决科研人员在文献筛选、跨学科知识发现及学术资源获取等环节中的痛点,应对信息过载、检索繁杂、整理耗时等挑战。

张林峰谈道,当下,AI4S(AI 用于科研)应用场景更彻底的爆发,依赖于 AI 读算做的系统打通、加速闭环。

深势科技成立于 2018 年,他补充说,目前该公司员工规模在 200 人左右,其中有超过 100 名实习生。

一、首个覆盖 " 读算做 + 多学科协同 " 的 AI 科研平台

在科学导航中,用户输入或选择相应科学问题,科学导航就可以自动解析问题意图,匹配最相关的科研成果,并智能生成精准答案,同时一键跳转至原始文献,获取更深入的研究信息,确保科研探索的全面性与可溯源性。

这一平台拥有数据库和知识库、个性化问题捕捉、模型切换、多模态能力、批量文献问答、联网搜索等能力。

其中的学者库收录超 2000w+ 位全球学者,基于学者 AI 分身,用户可以与其对话交流,回答专业问题、分享观点、拓展科研思路。

二,AI4S 模型走向成熟,应用场景爆发需要 AI 读算做闭环

如今有越来越多 AI4S 模型出现。深势科技已经推出了多个 AI4S 模型,包括面向物理世界的 DPA 分子模拟大模型、面向化学世界的 Uni-Mol 3D 分子构象大模型、面向生物世界的 Uni-RNA 核酸结构大模型。

张林峰谈道,现在 AI4S 的发展趋势是,一方面模型走向成熟,另一方面其发展阶段可以对标 GPT-3,处于有基本数据积累以及面向下游能够实现迁移泛化的阶段,但在实验、生产、计算的科学探索领域仍存在较大问题。

他认为,当下 AI4S 应用场景更彻底的爆发,都依赖于 AI 读算做的系统打通、加速闭环。

因此,从 2022 年开始,深势科技一方面要证明自己可以把某些场景打通,如考虑药物设计领域等;另一方面,2022 年是大模型爆发前夜,在药物研发过程中需要对相关专利、文献进行收集、整理,然后将相应分子式等进行提取,再形成数据库,才能和 AlphaFold3 等类似的大模型进行拟合、迭代。

在 AI" 读 " 的部分深势科技的产品可以给出具体的分子式、化学反应等信息。此外,实验侧的合成、制备环节是形成整个闭环的规模、效率和反馈质量的最终要素,解决这一难题的关键就是大语言模型。

在 " 算 " 的环节,深势科技解决了 AI 克服维数灾难的问题,实现更好的建模、加速计算等,之后数据资料充足时,就会有整体的预训练模型和下游反馈。

三、AI 今年将吞噬文献世界,科研场景需自动化实验系统

张林峰谈道,AI4S 整个领域面临的一大问题是,AI 今年能够吞噬文献世界。从 AGI 的角度来看,有挑战的事情是高质量的数据,全量的文献专利就是更高质量的反馈。

他认为,AI 文献今年非常有望实现全量文献专利的干闭环,以及进一步的干湿闭环能够从局部走向整体。其中,包含瓶瓶罐罐的实验过程是湿实验,计算是干实验。

AI4S 的干闭环挑战在于,文献专利中的基础问答不够,体现在质量、通量不够;文献的标注解析缺乏,需要进行多模态信息标注的解析;每个场景都需要专用科学数据库。

这也导致玻尔空间站选择了现在的表现形式。玻尔空间站的现有版本里,已经可以针对文献的基础信息、通用语料、分子式等信息进行基础知识问答。

未来,张林峰提到,进一步的 AI 连接能力是产品继续往深走的核心。他认为,文献可能成为全球科学家的新平台,改变科研生产关系,而这很有可能发生在今年年底。

AI" 做 " 的部分的瓶颈是自动化程度不高,其中的一大矛盾点事,基于智能化算法去优化生产效率、化学反应可以追溯到 1978 年;但当下科研场景的自动化却很低,在工业场景已经非常成熟。

材料合成、药物发现领域的自动化实验系统可以支持开放式探索场景。他认为,这有点像人形机器人的柔性场景需求,但人形机器人相比实验系统更难,如果 AI4S 的实验室 " 具身智能 " 无法落地,人形机器人也很难落地。

上个月底,深势科技发布了 Uni-Lab-OS 智能实验室操作系统,该操作系统可以解决传统实验室手工操作低效、设备孤立及数据分散的痛点。

结语:未来 AI4S 大模型、自动化实验、产学研生态将实现飞轮

AI4S 大模型想要和真正的科学发现相关联,就需要 RLHF(人类反馈强化学习),也就是为模型优化进行定制化,这个过程类比到 GPT-3 到 GPT-4 就是大范围的人类对齐,GPT-4 以后的 Reasoning 模型就是针对具体场景的反馈优化。

张林峰称,面向未来,每个阶段都有独属于各个阶段的问题,2025 年实现彻底的干闭环,更长期的是 AI4S 大模型、自动化实验、产学研生态实现飞轮。

查看原文