×

医学的未来:人工智能设计的药物和FDA批准的竞赛

hqy hqy 发表于2025-02-28 07:06:36 浏览20 评论0百度已收录

抢沙发发表评论

药物设计化学探索空间估计在10个exp(20)-10个exp(24)分子之间。但是,即使我们已经拥有了数十亿个分子,将新药推向市场仍然需要十多年的时间,药物发现过程就长达6年。一个2016年研究 塔夫茨药物开发研究中心估计,开发一种新药从发现到上市的成本约为28亿美元。除了从靶点识别到先导化合物优化再到开发的药物设计成本外,临床试验的复杂性也在增加,监管框架也在不断扩大。人工智能可以帮助缩短药物开发周期并降低成本。事实上,人工智能的采用在过去十年中一直在加速,今天我们正在见证一种新型生成式人工智能(GenAI)在医学和医疗保健领域的曙光。在本文中,作者研究了GenAI的作用,其潜在影响,其中的挑战,以及FDA首次批准完全AI设计的药物的竞赛。

人工智能在医学和医疗保健领域的简史

AI在医学和医疗保健领域的使用可以追溯到1970年代,当时基于规则的系统(eg. MYCIN)用于帮助诊断细菌感染。在1980年代,CADUCEUS等系统被用来支持诊断和提供治疗建议。在1990年代,引入了机器学习算法来分析医疗数据。2000年代电子健康记录(EHR)的扩展提供了大量数据,可用于训练人工智能系统,以便进行预测分析并提供决策支持系统。半导体行业在这一切中发挥了关键作用。2000年代专用硬件(如图形处理器)的发展使得能够有效计算大型神经网络负载所需的复杂数学运算。在过去几年中,人工智能最重要的成就之一是在蛋白质折叠领域。在生物学中,结构决定功能,因此了解蛋白质的3D结构以及它们如何与其他蛋白质相互作用对于药物开发至关重要。蛋白质对我们的身体至关重要,它们对抗入侵者,使代谢过程能够将食物转化为能量,修复组织,维持我们细胞的结构完整性,合成激素,保持适当的pH平衡,充当化学反应的酶等等。在过去的几年里,基于人工智能的工具,如AlphaFold和RoseTTAFold,在解决生物学最重大的挑战之一方面取得了历史性进展:从蛋白质的氨基酸序列中预测蛋白质的3D形状。蛋白质折叠成3D形状,这些形状决定了它们的功能以及它们如何与其他蛋白质相互作用。错误折叠的蛋白质会导致疾病。例如,大脑中错误折叠的Tau蛋白的积累与阿尔茨海默氏症有关。尽管取得了这些进展,但仍然存在重大挑战,因为蛋白质结构不是静态的,事实上蛋白质在工作时会改变它们的形状。

如今,人工智能正被用于临床试验,以帮助识别可能对某些治疗反应更好的患者亚群。通过分析大型患者信息数据集,人工智能算法可以识别人类分析师可能无法立即察觉的模式和关联。这可以帮助研究人员为一系列疾病开发更有针对性和更有效的治疗方法。

GenAI:新的曙光

GenAI 已经存在了几十年。在1970年代,David Cope开发了一个生成原创音乐的程序。2014年,一种称为生成对抗网络(GAN)的新深度学习架构能够创建逼真的图像,例如人脸。然而,在2017年,一个划时代的论文为GenAI迎来了新的曙光。它引入了一种称为transformer的新神经网络模型,该模型有助于开发大型语言模型(LLM),例如GPT-4(T 代表 transformer)。2023年,ChatGPT只用了两个月就吸引了两亿用户。让我们首先在NLP的背景下考虑LLM,然后看看它们如何应用于药物设计。为了由计算机处理,单词或字符序列首先被编码为称为标记的数字或向量表示。在转换器模型之前,句子中的单词必须连续处理才能建立上下文和含义。这一过程不仅效率低下且耗时,而且时间一长就丧失了准确性。此时,Transformer 就可以发挥巨大作用了。Transformer模型基于一个巧妙的想法,允许同时处理句子中的所有单词,而无需知道词序,这个基本概念称为注意力。在注意力中,该模型通过概率分配相对权重并关注那些联系最紧密的单词,学习将每个单词与句子中的所有其他单词相关联。变压器有两个主要元件的堆栈:编码器解码器。编码器生成各种标记的每个部分的一组表示形式,然后解码器生成所需的输出。Transformer神经网络需要对大量数据集进行训练,因此会消耗大量计算资源,但是它们可以并行化该过程,从而实现语言模型的快速扩展。在药物设计的背景下,LLMs处理分子的化学语言。在化学语言模型中,标记可能表示分子属性,例如分子的原子和键。通过使用Attention的概念,语言模型可以捕获这些标记之间的依赖关系和关系。然后,这些分子标记可以被解码成新的结构,并根据一组客观的属性进行评估,例如使用强化学习。然后,可以迭代改进生成模型,直到它满足所需的属性。衍生式设计方法探索了几乎无限的化学空间。相比之下,传统方法修剪现有分子的文库,以寻找具有所需特性的少数分子(如果有的话)。Transformer模型可以通过在大型分子数据库上进行训练来构建。语言模型可以通过推理技能和使用其他工具的能力来增强。这些功能更强大的模型有时称为增强语言模型 (ALM)虽然AlphaFold和RoseTTAFold可以预测静态结构,但GenAI可以创造新的分子、蛋白质和其他生物实体,可用于药物开发、疾病诊断和治疗。一般而言,GenAI尤其是ALM可用于医学和医疗保健领域的各种应用,包括: 药物再利用和副作用预测• 疾病亚型• 预测蛋白质-配体结合亲和力• 预测耐药性突变• 预测药物毒性• 临床试验的患者选择• 预测疾病进展• 临床试验设计和患者选择• 分子合成• 药品生产工艺优化、质量控制和法规遵从性• 分析病历和报告

• 通过分析来自可穿戴设备(包括脑机接口)的数据进行患者监测

挑战

GenAI最近引起了全球的极大关注,很明显,鉴于最近的进展,其中大部分是合理的。然而,仍然存在重大挑战,特别是在其在医学上的应用方面。

因果关系机器学习在很大程度上依赖于概率关联。它在提取相关性、基于属性相似性进行聚类、识别模式以及根据历史行为进行预测方面取得了巨大成功。然而,从数据中提取因果关系的能力仍未得到充分发展。拥有这种能力对于了解疾病发病机制和开发靶向药物至关重要。幸运的是,我们开始看到人们对因果人工智能的兴趣大幅增加(以该领域发表的论文数量的增长来衡量)。偏见:生成模型与可用的数据集一样好(或一样差)。这其中有固有的偏见。必须非常小心地使用尽可能完整的最高质量的数据进行训练。在一个例子中,生成模型是在特定的结构域受体家族抑制剂上训练的。生成了6个分子,其中4个具有生化活性。四种中最好的在细胞系上进行了测试,随后小鼠药代动力学显示出良好的生物利用度。可解释性:由于GenAI模型基本上是不透明的模型,因此很难解释决策过程。缺乏足够的可解释性意味着难以理解作用方法,即驱动药理活性的特征。复杂生物学:疾病生物学非常复杂,这可能会限制学习过程,并影响GenAI生成具有所需特性的分子的有效性。验证:生成的分子必须通过一系列实验和测试进行验证和优化,以确定其有效性和安全性。人工智能面临的挑战是它如何帮助设计正确的实验,以深入了解作用方法、功效、毒性和可制造性。

监管挑战:新药必须经过严格的测试和评估才能获得FDA的批准,无论它们如何设计和开发,无论是否使用GenAI。然而,在GenAI的情况下,这可能更具挑战性,因为可能尚未充分了解所生成分子的潜在生物学和作用机制。

比赛和前方的道路

Gartner 预测到2025 年,超过30%的新药和新材料将使用生成式人工智能被发现。虽然这个想法有些激进,但很明显,越来越多的公司正在使用GenAI来加速和/或改进药物发现。Exscientia和Insilico是第一个将人工智能设计的药物纳入临床试验的公司。Exscientia正在通过采用端到端机器学习平台来设计de-Novo药物,该平台可以通过分析结合亲和力、毒性、药代动力学和可制造性等功效来执行全局优化。该公司有两种人工智能设计的药物处于1/2期试验阶段。Insilico最近宣布,美国FDA已授予INS018_055孤儿药资格,用于治疗特发性肺纤维化(IPF)。Biomatter 声称其GenAI平台能够将蛋白质工程周期从几个月缩短到几周。加拿大初创公司 Variational AI 正在利用其生成药物设计平台开发 Covid-19口服抗病毒药物和乳腺癌治疗方法。

谁将成为第一个获得FDA批准完全由人工智能设计的药物的公司,我们拭目以待。

结论

很明显,GenAI可以大大加快药物设计和开发过程。最近卡介苗研究显示多个基于人工智能的项目在不到五到六年的行业平均水平内完成了发现到临床前。Exscientia(注:Mubadala Capital – Ventures是Exscientia的投资者)和Insilico都报告了从目标确定到候选药物确定的时间表不到18个月。

参考资料:https://www.linkedin.com/pulse/future-medicine-ai-designed-drugs-race-fda-approval-rafic-makki%3FtrackingId=jLuLHazhRv6uRom8YuE%252Bpg%253D%253D/?trackingId=jLuLHazhRv6uRom8YuE%2Bpg%3D%3D

版权信息

本文系AIDD Pro接受的外部投稿,文中所述观点仅代表作者本人观点,不代表AIDD Pro平台,如您发现发布内容有任何版权侵扰或者其他信息错误解读,请及时联系AIDD Pro (请添加微信号sixiali_fox59)进行删改处理。

本文为原创内容,未经授权禁止转载,授权后转载亦需注明出处。有问题可发邮件至sixiali@stonewise.cn

关注我,更多资讯早知道↓↓