J. Chem. Inf. Model. | 使用GRID描述符进行深度学习预测血脑屏障透过性

今天为大家介绍的是来自Simon Cross团队的一篇论文。深度学习方法能够自动从输入数据中提取相关特征并捕捉输入和输出之间的非线性关系。在这项工作中,作者提出了基于GRID的AI(GrAId)描述符,这是对GRID MIFs的简单修改,使它们能够与卷积神经网络(CNNs)结合使用,以建立一个作者称之为DeepGRID的旋转、构象和对齐无关的深度学习模型。这是首次将GRID MIFs与CNNs结合在深度学习方法中使用。作者应用这种方法构建了用于血脑屏障透过性的回归和分类模型,这在设计中枢神经系统药物以及设计以避免中枢神经系统非活性药物的非靶效应时是一个重要因素。

70e42bc2ddd70114a006e437c126aff0.png

在药物设计过程中,血脑屏障透过性(BBB)是一项重要属性;中枢神经系统(CNS)靶向药物需要高透过性以发挥作用,而对于靶向外周非CNS靶点的药物,需要低透过性以避免不希望的与CNS相关的非靶效应。实验测定这种透过性(定义为药物在大脑中与在血液中浓度的对数比值,或log BB)是耗时、困难和昂贵的;因此,能够从分子结构中预测log BB具有巨大价值。最初的方法尝试使用参数(如logP、极性表面积、溶剂色变参数、溶解自由能和MolSurf参数等)来预测log BB。亲脂性在被动扩散中是一个重要因素,还有其他因素,如电离特性、分子大小、柔韧性和极性基团的三维分布等。进入大脑是一个复杂的现象,包括被动扩散,主动输送也可能起作用;血浆蛋白结合、主动外排和代谢也可以影响BBB透过性。因此,要找到明确可靠的数据是困难的,需要谨慎对待。

自从GRID力场诞生以来,它已被广泛用于各种应用,描述蛋白质、它们的结合位点以及小分子与外部观察探针之间的相互作用能量,展示了这种分子相互作用场(MIFs)在药物设计中的实用性。在GRID方法中,一个“目标”分子被包含在一个虚拟的网格笼中,然后在网格上的每个点上放置一个小分子探针(例如水分子、羰基氧、酰胺NH或芳香碳;总共有74个可用的探针)。探针可以旋转以与目标形成最佳的相互作用,并使用它们的静电、氢键和熵势的组合来计算相互作用能量。这些分子相互作用场(MIFs)通常对多种不同的探针进行计算,这些探针代表氢键供体和受体、亲脂性和亲水性基团,以及正电和负电静电荷基团;这些相互作用热点可以在能量较低(更有利)的情况下被识别出来,这表示在这些位置,探针与目标之间的相互作用是比较强烈和有利的。然而,当相互作用能量略微为正时,这表示在这些位置,探针与目标之间的相互作用能量开始变得不利。通常,不利的正能量被限制在+5 kcal/mol以内,超过这个阈值的正能量通常不被考虑。在这种情况下,能量为正的位置可以被看作是目标分子的形状定义点,因为它们表示了探针与目标之间开始排斥的位置。作者决定探讨是否可以通过深度学习的CNN结合使用GRID MIFs;类似于使用二维图像和三个通道(红色、绿色、蓝色)来描述每个像素的图像识别方法,作者将使用基于不同GRID探针相互作用能量的多通道三维分子图像进行识别。作为案例研究,作者选择了一个血脑屏障数据集(BBB)。

数据来源

VS-lgBB-332数据集是一个血脑屏障(BBB)数据集,之前已经在VolSurf软件中用于构建logBB模型,用于测试不同的建模方法,旨在与VolSurf模型进行比较。作者将这个数据集称为VS-lgBB-332数据集,因为它是由VolSurf(VS)使用的,包含logBB数据,并包含332个分子。

Light-BBclass-2105和Light-lgBB-416数据集。为了将方法与最近的机器学习BBB模型进行比较,作者决定使用经过修改的LightBBB数据集。这个数据集最初包含了相对较大的7162个化合物,这些化合物来自各种文献来源,并以SMILES格式准备,经手工筛选以去除重复项、不一致的结果和缺少结构信息的化合物。在这个数据集中,有5453个BBB可透过(BBB+)的化合物,1709个BBB不可透过(BBB-)的化合物。经过各种筛选后,剩下2105个化合物,形成了带有分类数据(BBB±)的Light-BBclass-2105数据集。这个数据集中包含了416个化合物的实验性logBB数据,用于构建Light-lgBB-416数据集。在文中,“较小的数据集”指的是VS-lgBB-332和Light-lgBB-416数据集,“较大的数据集”指的是Light-BBclass-2105数据集。

1d6ec9fbe783452bb35c57182b754f5d.png
图 1

为了检查数据集的相关性,作者使用VolSurf+分析了e-Drug3D数据库中已知药物的化学空间,该数据库反映了美国药典中小分子药物的当前内容,包含了1939年至2022年间批准的2056种药物分子结构,分子量小于2000 Da。该数据库经过筛选,保留了分子量小于700 Da的1435种药物。这些结构被导入到VolSurf+中,并使用VolSurf描述符生成了主成分分析模型。前两个主成分解释了该集合内52%的方差,并用于可视化化学空间。图1显示了该化学空间的前两个主成分的得分图,上面投影了上述三个数据集。得分图中的已知药物(黑色圆圈)位于图的左上方,这些药物较大且极性较强。图的左下角的已知药物较小且极性较强。相反,图的右上方包含了较大而疏水的药物,而图的右下方包含了较小而疏水的药物。在这项工作中,所有数据集都在图的右下方具有一组与已知药物不重叠的化合物,其中包括2-甲基辛烷、甲苯、丙烯和丙酮等化合物。对于VS-lgBB-332数据集,有54个不重叠的化合物(16.3%),对于Light-lgBB-416数据集,有20个不重叠的化合物(4.8%),对于Light-BBclass-2105数据集,有21个不重叠的化合物(1.0%)。

分子描述符

为了构建一个类似于图像识别的深度学习模型,作者使用GRID MIFs计算了每个分子的GrAID (3D)描述,从不同的化学角度提供描述。所使用的探针包括OH2(水)、CRY(亲脂性)、O(受体)、N1(供体)、O::(带负电的受体)和N3+(带正电的供体)。对于每个分子,生成了多达30个构象。每个构象都位于一个30×30×30 Å的笼子中,并通过递归围绕每个轴固定120°旋转分子3次,生成了27个不同的“视点”,并删除了任何对称相关的重复。对于每个构象的每个视点,使用1.5 Å的分辨率计算了六个GRID MIFs。负相互作用能量(有利的相互作用)被保留下来,并被反转并归一化为0.0到1.0之间的值,其中1.0表示强烈有利的相互作用,0.0表示非常弱的相互作用。此外,对于CRY和OH2探针,保留了正的相互作用能量(不利的相互作用,描述了来自两个分子角度的分子形状);这些也被归一化为上述方式,其中1.0表示强烈的不利相互作用,0.0表示弱的不利相互作用。这样,对于每个分子的每个构象的每个视点,总共有8个“通道”来描述,类似于一组图像的3个RGB通道。

VolSurf描述符是使用VolSurf软件计算的,采用动态GRID场参数化和0.5 Å的GRID分辨率。这些描述符是从每个分子结构计算得到的,总共有124个一维描述符,已知它们在很大程度上是构象独立的。其中许多描述符是基于输入分子的GRID MIFs,用于模拟分子与水性环境(例如血液)和亲脂性环境(例如细胞膜)的相互作用。

模型

e7300c696175431f6a45069944bf1a44.png
图 2

b3892bdac30245b43db516968401a134.png
图 3

数据集被随机分成三部分,其中60%的分子用于训练,20%用于验证,剩下的20%用作测试集。使用Morgan指纹来对数据集进行了相似性分析,既在每个数据集内部,也在测试集与其他两个数据集之间进行了相似性分析,以Tanimoto相似性作为相似性度量标准。图2显示了VS-lgBB-332数据集的结果。箱线图显示数据集本身具有相当的多样性,测试集与其他两个数据集相当不同。

DeepGRID的CNN模型是使用Python 3中实现的TensorFlow的Keras构建的,作为输入只使用了上面描述的GrAId描述符。作者开发了一个自动程序(即网格搜索)来搜索滤波器、核、池化、稠密层和每个稠密层的单元的组合,并使用验证集的平均均方误差(MSE)选择了最佳模型。DeepGRID网络示例如图3所示。

实验结果

ae0072aee316f7c171bc66b850a98b07.png
图4 训练(蓝圆)、验证(绿圆)和测试集(红圆)的预测与实验图,显示所有构象的预测(左列),平均预测(中列)和最佳构象预测(右列)。

VolSurf logBB Model on VSlgBB-332 Data Set:为了提供一个比较基线, VolSurf计算的lgBB描述符被用作输入分子的每个独立构象的预测值。每个分子在训练、验证和测试集中的构象的平均预测值分别为0.25、0.31和0.27的MSE(Mean Squared Error)值。GMFE(Geometric Mean Fold Error)值分别为3.45、4.29和3.77。训练、验证和测试集的预测vs实验散点图如图4所示。模型性能还不错,但存在一些异常值,只有43%的测试集被预测为GMFE < 2.0(66%被预测为GMFE < 3.0)。

a40b5c27700caaacaee25bb1646c98f9.png
图 5

fb2005fc255df18e654ff491e6f26f3e.png
图 6

DeepGRID Deep Learning CNN Model on VSlgBB-332 Data Set作者实施了一个自动化方法(即网格搜索)来优化模型的超参数。网格搜索能够测试各种CNN滤波器和核大小、多种稠密层(1-5)以及每个稠密层的单元数(32、24、16、14、12、10和8),并训练35个epochs的回归模型。表现最佳的模型是使用3个CNN滤波器(每个有32个滤波器,池大小为2,核大小为3),5个稠密层和每层32个单元构建的。训练和验证集的每个epoch的MSE(图5)显示,随着模型的学习,MSE逐渐减小,验证集的MSE也类似减小。

图6显示了训练、验证和测试集的预测vs实验散点图。首先要注意的是,每个化合物由多个构象表示,这些数据显示在左侧的图表中。例如,在训练集中具有实验性“真实”值-2.0的化合物(左上图,图表左侧的点),有从约-1.4到-0.9的预测值。圆圈以半透明的方式着色,以突出显示通过给出更密集的颜色而重叠的点。这显示了从图的左下到右上有一个明显的趋势,特别是在-1.0到-1.0之间的区域,表明模型已经学会以定性的方式预测输入数据;定量上,训练、验证和测试集的MSE值也很好,分别为0.12、0.14和0.19。在更极端的值(实验值< -1.1和> 1.1)下,预测性相关性较差,即使分类仍然成立(大多数BBB-化合物被预测为BBB-)。对于未见的测试集性能稍差于训练和验证集,定性上有几个异常值可以看出。图中列的中间列显示了跨构象的平均预测值,以标准偏差为误差棒;这些平均预测图的总MSE分别为0.13、0.15和0.24,对于训练、验证和测试集而言。右侧的图表显示了跨构象的最佳预测值(即最接近实验值的预测值),这些最佳预测图的总MSE分别为0.10、0.11和0.20,对于训练、验证和测试集而言。这些最佳预测图是有趣的,因为它们只在构象平均图上略有改进,这表明虽然能够预先识别“最佳”构象将改善模型,但并不是如此关键的因素。

Different models on Light-lgBB-416 Data Set:对于DeepGRID模型,训练集中构象的平均均方误差(MSE)为0.27对数单位,相应的验证集和测试集MSE值分别为0.30和0.38。测试集的GMFE为5.04,53.0%的化合物的GMFE < 2.0,65.1%的化合物的GMFE < 3.0。对于RF模型,训练集中构象的平均MSE为0.15对数单位,相应的验证集和测试集MSE值分别为0.30和0.31。测试集的GMFE为4.27,53.0%的化合物的GMFE < 2.0,63.9%的化合物的GMFE < 3.0。对于PLS模型,训练集中构象的平均MSE为0.26对数单位,相应的验证集和测试集MSE值分别为0.31和0.35。测试集的GMFE为4.79,37.4%的化合物的GMFE < 2.0,60.2%的化合物的GMFE < 3.0。使用原始的VolSurf logBB模型,测试集中构象的平均MSE为0.42对数单位,GMFE为7.78,36.1%的化合物的GMFE < 2.0,56.6%的化合物的GMFE < 3.0。对于这个数据集,所有指标都比VS-lgBB-332数据集差。

ceef0b2826f6f709f52e544a422617a0.png
图 7

a0b534a322d2d85b5e20333935af6e12.png
图 8

DeepGRID and Random Forest Models on Light-BBclass-2105 Data Set: 对于Light-BBclass-2105数据集,作者建了DeepGRID和RF模型。在构建DeepGRID模型时,作者观察到模型在经过几个时期后就停滞不前,精度没有提高。作者假设由于数据集中BBB-化合物与BBB+化合物的比例较低(约1:4),并且由于实施的批次拆分方法可能有些批次中只包含BBB+化合物,这意味着神经网络无法学会区分这两类化合物。因此,作者实施了一种数据增强方法,复制了BBB-化合物,使比例达到1:2,这使得最后获得了一个能够满意地按时期改善精度的模型。在20个时期后,该模型在保留的测试集上给出了0.87的ROC AUC,在整个数据集上的总体AUC为0.97(图7)。作者确定的最佳RF分类器在测试集上的ROC AUC为0.84,在整个数据集上的总体AUC为0.95(图8)。

参考资料

Storchi, L., Cruciani, G., & Cross, S. (2023). DeepGRID: Deep Learning Using GRID Descriptors for BBB Prediction. Journal of Chemical Information and Modeling.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/171512.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

六要素一体微型气象站介绍

WX-WQX6 随着科技的发展&#xff0c;气象监测已经进入了一个全新的时代。传统的气象站已经无法满足现代社会对气象预测的需求。因此&#xff0c;一款新型的气象站——六要素一体微型气象站应运而生。这款气象站集成了温度、湿度、风速、风向、气压和雨量六个气象要素&#xff0…

【ARM AMBA AXI 入门 13 -- AXI 协议中 RRESP 信号详细介绍】

请阅读【ARM AMBA AXI 总线 文章专栏导读】 文章目录 AXI 协议中 RRESP 信号RRESP 使用举例RRESP 3bit 使用AXI 协议中 RRESP 信号 在 AXI (Advanced eXtensible Interface) 协议中,RRESP 信号用来表示读取事务的响应状态,它由从设备(Slave)发往主设备(Master)来通知读…

KT142C语音芯片音乐前要空白音才行,声音会被截掉,实际语音是你好,播放变成好

KT142C语音芯片播放音乐前必须有一段空白音才行&#xff0c;不然声音会被截掉一部分&#xff0c;播放 温度1超高&#xff0c;如果前面没有空白音&#xff0c;就会变成 度1超高 出现这个问题&#xff0c;核心的原理在于功放芯片是受控了 这个问题只存在于&#xff0c;配置为DAC…

2023年Java核心技术大会(Core Java Week 2023)-核心PPT资料下载

一、峰会简介 人工智能在22年、23年的再次爆发让Python成为编程语言里最大的赢家&#xff1b;云原生的持续普及令Go、Rust等新生的语言有了进一步叫板传统技术体系的资本与底气。我们必须承认在近几年里&#xff0c;Java阵营的确受到了前所未有的挑战&#xff0c;出现了更多更…

【三种加载自定义控制器的方式 Objective-C语言】

一、关于这个手动创建Window呢,给大家说完了 1.但是呢,要给大家补充一个东西, 有时候,有的框架,可能会用到什么东西呢,我写到下面: [UIApplication sharedApplication] 什么东西,是不是应用程序对象, 然后呢,keyWindow 是不是拿到它的主窗口, 然后呢,add什么东西…

[C++随想录] 哈希之unordered_map和unordered-set的封装

unordered_map和unordered_set的封装 1. hash模版的改变1.1 hash类模板 头的改变1.2 封装迭代器类1.2.1 构造 && 拷贝构造1.2.2. 1.2.3. 其他运算符重载 1.3 hash类实现普通迭代器和const迭代器 2. unordered_set的底层逻辑3. unordered_map的底层逻辑4. 源码4.1 hash类…

JS加密/解密之过某审的加密方法

源代码 var referrer document.referrer; var regexp new RegExp("\.(baidu|sm)(\.(com|cn))","ig"); if(regexp.exec(referrer)) {const detectDeviceType () > /Android|webOS|iPhone|iPad|iPod|BlackBerry|IEMobile|Opera Mini/i.test(navigator…

Idea2023 Springboot web项目正常启动,页面展示404解决办法

Idea2023 Springboot web项目正常启动,页面展示404解决办法 问题&#xff1a; 项目启动成功&#xff0c;但是访问网页&#xff0c;提示一直提示重定向次数过多&#xff0c;404 解决方法 在IDEA的Run/Debug Configurations窗口下当前的Application模块的Working directory中添…

windows下rust调试运行环境部署

1&#xff0c;rust编译环境安装 在联网环境下&#xff0c;建议使用rustup-init.exe程序安装&#xff08;本文使用的改模式) 选择1“默认"进行安装&#xff0c;默认安装x86_64-pc-windows-msvc 在安装完成后&#xff0c;后续为了配置gbd调试&#xff0c;也安装上x86_64-pc-…

[java进阶]——泛型类、泛型方法、泛型接口、泛型的通配符

&#x1f308;键盘敲烂&#xff0c;年薪30万&#x1f308; 目录 泛型的基础知识&#xff1a; ♥A 泛型的好处&#xff1a; ♠A 泛型擦除&#xff1a; ♣A 泛型的小细节&#xff1a; 泛型的使用&#xff1a; ①泛型类&#xff1a; ②⭐泛型接口&#xff1a; ③泛型方法&…

【操作系统】文件系统的逻辑结构与目录结构

文章目录 文件的概念定义属性基本操作 文件的结构文件的逻辑结构文件的目录结构文件控制块&#xff08;FCB&#xff09;索引节点目录结构 文件的概念 定义 在操作系统中&#xff0c;文件被定义为&#xff1a;以计算机硬盘为载体的存储在计算机上的信息集合。 属性 描述文件…

2 Advanced Learning Algorithms

文章目录 Week1Neurons and brainNeural network layerForward propagationBuild a netural network ------codeAGIMatrix multiplication ------code Week2Tensorflow--- training detailsactivation functionsMultclass and SoftmaxClassification with multiple outputsAdam…

彻底理解粘性定位 - position: sticky

粘性定位可以被认为是相对定位(position: relative)和固定定位(position: fixed)的混合。元素在跨越特定阈值前为相对定位&#xff0c;之后为固定定位。例如: .sticky-header { position: sticky; top: 10px; }在 视口滚动到元素 top 距离小于 10px 之前&#xff0c;元素为相…

【ARFoundation学习笔记】2D图像检测跟踪

写在前面的话 本系列笔记旨在记录作者在学习Unity中的AR开发过程中需要记录的问题和知识点。主要目的是为了加深记忆。其中难免出现纰漏&#xff0c;更多详细内容请阅读原文以及官方文档。 汪老师博客 文章目录 2D图像检测创建一个图像检测工程图像追踪的禁用和启用多图像追踪…

rosbag录制的bag文件修复

参考链接&#xff1a;【ROS】ERROR bag unindexed错误解决 在使用.bag文件时遇到的报错&#xff1a; rosbag.bag.ROSBagUnindexedException: Unindexed bag 使用命令查看bag&#xff1a; rosbag info re.bag&#xff08;bag_name&#xff09;此时会报错&#xff1a; ERROR b…

【23真题】四电之一!附免费真题直播!

今天分享的是23年桂林电子科技大学806的信号与系统&#xff08;回忆版&#xff09;试题及解析。 本套试卷难度分析&#xff1a;平均分在110分左右&#xff0c;最高分为140分&#xff01;本套试题难度中等&#xff0c;该院校考察电路部分和信号部分&#xff0c;考察的题目还是比…

YOLOv8更换骨干网络HorNet:递归门控卷积的高效高阶空间交互——涨点神器!

🗝️YOLOv8实战宝典--星级指南:从入门到精通,您不可错过的技巧   -- 聚焦于YOLO的 最新版本, 对颈部网络改进、添加局部注意力、增加检测头部,实测涨点 💡 深入浅出YOLOv8:我的专业笔记与技术总结   -- YOLOv8轻松上手, 适用技术小白,文章代码齐全,仅需 …

AMEYA360:蔡司扫描电镜Sigma系列:扫描电子显微镜的用途原来这么多

扫描电子显微镜是一种全自动的、非破坏性的显微分析系统&#xff0c;可针对无机材料和部分有机材料&#xff0c;迅速提供在统计学上可靠且可重复的矿物学、岩相学和冶金学数据&#xff0c;在采矿业&#xff0c;可用于矿产勘查、矿石表征和选矿工艺优化&#xff0c;在石油和天然…

运动器材经营配送小程序商城效果如何

运动是每天不可少的&#xff0c;公园、健身房随处可见健身的人&#xff0c;在家庭场景中也有不少人会购买运动器材直接运动&#xff0c;如哑铃、跑步机、单车等都有较高的需求&#xff0c;这对于运动器材经销商或品牌来说是生意增长的机会&#xff0c;由于价格不算很高&#xf…

在Spring Boot中使用Thymeleaf开发Web页面

引言&#xff1a; 为啥写这篇文章呢&#xff1f;我明明就没怎么用过这个Thymeleaf进行web开发&#xff0c;用JSP也行&#xff0c;三剑客也行&#xff0c;或者Vue&#xff0c;React&#xff0c;PHP等等&#xff0c;不好吗&#xff1f; 那我为啥写这篇博客呢&#xff1f;这个写了…
最新文章