浙大团队将化学知识引入机器学习,提出可外推、可解释的分子图模型预测反应性能

2025-05-18 点击数:0 分享至:


化学反应的预测建模在药物发现、材料科学等领域至关重要。然而,化学转化的复杂性与多样性,使得构建兼具强外推能力和化学可解释性的合成转化预测模型颇具挑战。

图片

为弥合丰富的化学领域知识与先进分子图模型间的鸿沟,浙江大学洪鑫课题组提出了基于知识的分子图模型SEMG-MIGNN,该模型嵌入了数字化空间和电子信息。同时,研究团队开发了分子相互作用模块,以解析反应组分的协同影响。

实验表明,这种基于知识的图模型可精准预测反应产率和空间选择性,且外推能力经实验验证。得益于局部环境嵌入,模型能从原子层面阐释空间和电子效应对整体合成性能的影响,为分子工程实现目标合成功能提供了有力指导,也为反应性能预测提供了兼具外推性与可解释性的新方法,凸显了化学知识约束反应建模在合成领域的重要性。

图片

对化学反应性和选择性的深入理解与准确预测,是合理高效探索大规模合成空间的基础。结构-性能关系(SPR)的构建主要围绕反应机理研究和决定性过渡态模型阐释展开。借助过渡态模型,化学家可剖析反应性/选择性趋势的根源,并基于化学理论与经验作出合成判断。但在缺乏明确机理基础和解析方程的情况下,处理高维SPR仍是难题。

数据驱动方法近年来成为构建SPR的有力策略。现代机器学习(ML)算法通过挖掘合成数据中的关联,可为合成预测构建强大模型。然而,人工合成转化的机器学习预测与设计仍不成熟,主要瓶颈之一是适用于SPR预测的分子编码方法和ML框架不足。

除人工指定的分子编码工程外,化学预测领域对表征学习的关注与日俱增。随着表征学习的创新与应用,数据驱动的分子性质和反应性能预测取得显著进展。在SPR预测方面,MIT的Coley团队将经典图神经网络(GNN)模型与选定反应位点的量子化学描述符结合,开发了QM-GNN融合模型。该模型将位点特异性电子信息嵌入ML建模,提升了对一系列转化的区域选择性和反应性的预测能力,其成功表明增强局部化学信息表达可为合成建模提供有价值的支持。

受QM-GNN启发,研究人员推测,通过丰富化学环境的局部编码并加强反应组分间的信息交互,可进一步优化SPR预测。

图片
图 1:合成性能和分子特性的机器学习预测。
在此,研究人员开发了一种名为「基于分子相互作用图神经网络的空间和电子嵌入分子图」(Sterics-and Electronics-embedded Molecular Graph with Molecular Interaction Graph Neural Network,SEMG-MIGNN)的基于化学知识的 ML 模型,用于预测合成性能。SEMG-MIGNN 有两个主要创新设计:首先,空间和电子效应的局部化学环境被数字化并嵌入到图表示中。这显著丰富了模型对原子环境的表征,并提高了模型对新分子结构的外推能力。此外,分子相互作用模块可以有效地学习多个反应组分的协同控制,从而使分子建模有效地扩展到 SPR 建模领域。
具体而言,该研究引入了一种称为空间和电子嵌入分子图(SEMG)的分子图模型,该模型结合了外部化学知识,以提高模型对局部化学环境的区分能力。该知识增强分子图的设计的关键是在节点中嵌入空间和电子环境的原子信息。图 2 以 1- 氯 -4-(三氟甲基)苯为例,展示了设计的分子图模型的生成工作流程。
图片
图 2:SEMG 的生成工作流程。
基于SEMG丰富的化学信息,研究人员对GNN框架进行改进以适配SPR预测,尤其开发了分子相互作用模块以增强反应组分间的信息交换。与超图不同,分子相互作用GNN(MIGNN)依赖矩阵运算实现信息交换。
图片
图 3:分子相互作用图神经网络(MIGNN)的框架和相互作用模块的设计。
MIGNN 的交互模块为 ML 模型提供了捕捉反应组分协同效应的机会,这对传统的 SPR 预测 ML 框架具有挑战性。在 MIGNN 中,相互作用矩阵允许具有物理意义的反应组分的所有可能组合充分交换它们的编码信息,从而支持模型在反应组分交织的高维合成空间中的预测。
在 Pd 催化的 C-N 交叉偶联反应的产率预测和手性磷酸(CPA)催化的硫醇加成 N- 酰基亚胺的对映选择性预测中发现了很好的预测。对额外的 CPA 催化剂的进一步实验测试证实了该模型在新催化剂预测中的外推能力。特别是,研究发现 SEMG-MIGNN 模型在基于支架的拆分任务中表现出卓越的外推能力,考虑到需要扩展可用 SPR 数据的领域,这对于合成预测来说是非常可取的。
图片
图 4:SEMG-MIGNN 模型(空间和电子嵌入分子图与分子相互作用图神经网络)预测反应产率。(来源:论文)
图片
图 5:SEMG-MIGNN 模型预测对映体选择性。(来源:论文)
除了出色的预测能力外,空间和电子效应的物理意义编码还提供了原子级的化学解释。对训练模型的分析表明,电子效应对 C-N 交叉偶联的产率预测起着至关重要的作用,而对映体选择性预测则严重依赖于空间效应。
此外,该模型能够识别分子结构的热点,用于确定合成性能,为未来的设计提供有用的见解。该模型的有效性表明,将表示学习与数字化化学知识相结合可以支持化学空间中可泛化模型的开发,为数据驱动的合成转换设计提供机会。

研锦生物可以利用基于靶点或小分子结构的药物设计方法,对可购买化合物、天然产物等数据库进行虚拟筛选,并获得潜在活性的化合物列表供进一步活性实验确证。面向制药企业和科研院所,可提供一站式的早期药物研发服务,包括虚拟药物筛选、先导优化、靶标预测、 动力学模拟等,涉及小分子化学药、生物药、中药等多种新药类型,为您提供优质的药物发现服务


图片
 联系我们 
技术交流 | 业务咨询
邮件:15337192895@163.com
电话 | 微信:15337192895 (张老师)

Yangenebio对于中药及小分子药物研究,建立了一套完整的技术服务体系:


武汉研锦生物科技有限公司(YanGeneBio)提供产品:


1,天然产物、中药、代谢物等化合物靶点发现及SPR亲和力验证解决方案:

1)中药/复方的有效成分高精度鉴定,网络药理学分析及SPR验证互作;

2)化合物钓靶(标记法):ABPP钓靶(特异性强,重复性高,细胞水平钓靶);

3)化合物钓靶(非标记法):Lip-MS/CETSA(细胞、组织裂解液水平钓靶);

4)SPR/MST/BLI/ITC/DSF等策略检测分子间亲和力;

5)药﹣靶结合位点分析(Lip-MS+分子对接鉴定纯蛋白与化合物互作位点);

6)蛋白-蛋白结合位点分析(交联质谱+分子对接鉴定2个纯蛋白间互作位点);

7)ABPP-WB/CETSA-WB 在细胞水平鉴定药物与靶点蛋白互作分析;

8)提供真核、原核蛋白表达纯化服务;

9)提供定制化基因敲除细胞模型验证药物活性;

10)基于分子对接等策略提供化合物高通量虚拟筛选技术服务;

11)提供蛋白、抗体芯片筛选服务:磷酸化抗体芯片,炎症因子蛋白芯片等检测服务;

12)提供Olink多因子蛋白组学检测服务。


2,提供重组活性细胞因子产品:应用类器官培养、完全培养基添加剂、干细胞培养、细胞治疗等领域。

3,提供分子互作仪、细胞电转仪、蛋白纯化仪、核酸合成仪及纯化仪等设备。


图片