三、配体与靶蛋白的对接和配体的虚拟筛选

wumingshi · 发表于 2011-1-21 02:35:19

第四节
小分子药物的成药性及其预测

PHARMACEUTICAL BIOINFORMATICS 药物生物信息学第四节

三、配体与靶蛋白的对接和配体的虚拟筛选

组合化学(combinatorial chemistry)的理论和技术是发现小分子新药的重要技术。组合化学认为通过基团随机组合合成能得到各种各样的化合物，这些化合物构成组合库(combinatorial library)；对于选定的靶蛋白，只要所用组合库中候选化合物的结构多样性足够丰富，总能从中筛选到所需药物。在小分子药物发现过程中，用常规策略设计的小分子化合物实际上是小规模的集中组合库。小分子配体同靶蛋白的亲和力是其成药性的关键指标之一。因此，制备和测定组合库中候选配体的亲和力是发现配体类小分子药物的关键环节，而制备和筛选的成本与效率成为发现小分子配体药物的难题。

常规制备候选配体并测定其对靶蛋白的亲和力进行筛选的成本高而效率低。高通量筛选(High-Throughput Screening，HTS)的效率和成本相对于常规筛选具有明显的优势，这是与组合化学技术联用发现新药的重要技术，但其所需样品制备的效率和成本仍是问题。因此，虚拟筛选(virtual screening)应需而生。虚拟筛选用于从虚拟的大规模小分子库 (现有的非肽候选小分子配体类化合物已超过700万个)中，通过生物信息学的手段评价候选小分子药物的成药性；虚拟筛选所发现的预期药物才进行实验制备和验证，这样可显著提高新药发现的成功率和效率并降低成本。对于配体类药物，广义虚拟筛选指对候选配体亲和力及其成药性的预测，狭义虚拟筛选主要指对配体与靶蛋白亲和力的预测。本节讨论配体类药物的狭义虚拟筛选，即配体对靶蛋白亲和力的预测。

20世纪80年代，Kuntz 等建立并发展了分子对接(docking)方法。分子对接是把大量的虚拟化合物库缩减成可操作的子集，并用于快速评估配体与靶蛋白的亲和力。分子对接的策略通常都考虑候选配体分子和靶蛋白在结合过程中可能的构象变化和对应的配体亲和力差异，此即柔性对接；但多数方法不考虑靶蛋白的柔性以减少计算量。目前，在分子对接过程中评价配体亲和力进行虚拟筛选主要有打分函数方法和机器学习方法等策略，目前已经有很多软件可用于分子对接和评价配体的亲和力。

分子对接的前提是需要靶蛋白和候选小分子配体的三维结构。靶蛋白结构数据可来自PDB数据库，候选小分子配体的.mol2数据可从ZINC或剑桥晶体数据库或NCBI下载资源，或用分子结构编辑软件生成并优化后再格式化以满足不同软件读入分子结构信息的要求。

（一）通过对接评价配体亲和力的方法

1. 基于打分函数的评价策略　目前大部分对接算法中使用的打分函数主要分为三种类型：基于配体与靶蛋白结合物理化学相互作用的打分函数、基于经验的打分函数和基于知识的打分函数。这些打分函数能够作为构象优化过程的适应值函数，并将预测的配体分子构象进行排序，对于分子对接筛选高亲和力配体有决定性作用。

（1）基于配体结合的物理化学相互作用的打分函数：基于配体结合的物理化学原理，将结合自由能表示为具有独立物理意义的多项式之和，使得各自由能函数项能尽可能反映蛋白质内部、蛋白质与溶剂分子之间的相互作用，其准确率较高但计算量巨大。大部分基于物理化学原理的打分函数采用AMBER和CHARMm力场的非键相互作用部分计算相互作用能，即将配体-受体结合自由能近似为范德华力和经典相互作用的加和，忽略溶剂效应和熵效应，估算配体结合的自由能变化或焓变。为了减少计算量，通常将靶蛋白中配体结合位点划分成很小的网格，估算候选配体的各种构象状态下不同取代基对各个网格节点的结合自由能变化，快速比较不同候选配体的亲和力差异进行筛选。

（2）基于经验的打分函数：基于经验的打分函数利用多元线性回归、偏最小二乘法等统计学方法将结合自由能表示成带有权重的氢键、静电、疏水效应以及熵效应等项的加和，分别计算候选配体对接时各项的贡献及其加和。此方法计算量小，能快速直接估算出结合自由能，但所用统计学模型不能通用，打分结果对不同体系的可移植性较差。

（3）基于知识的打分函数：基于知识的打分函数利用蛋白质结构数据库中的蛋白质与配体复合物结构数据作为学习样本，计算得到的具有统计性质的区分参数，从中提取配体与靶蛋白等结合的相互作用规律，用以判断配体的亲和力高低进行快速筛选。

2. 机器学习方法用已知的数据集进行训练，机器学习法能够建立起预测化合物某种性质的模型。自组织神经网络法、决策树、K最邻近算法（k-nearest neighbors approach，KNN）都得到尝试和应用。这些机器学习方法都通过捕获训练集中化合物分子的属性，用能区分训练集中的不同亲和力配体的这些属性判断未知候选配体的亲和力高低。此方法计算效率很高，但受训练集数据质量和来源的限制。

（二）常用软件简介

1. DOCK Dock
http://dock.compbio.ucsf.edu/DOCK/index.htm，1982年由美国加利福尼亚大学旧金山分校Kuntz 研究小组开发，用于模拟小分子与生物大分子结合的三维结构及强度，是目前应用最广泛的分子对接软件之一。对接中固定小分子的键长和键角，将小分子配体拆分成若干刚性片段，根据受体表面的几何性质，将小分子的刚性片段重新组合，进行构象搜索；最终以能量评分和原子接触罚分之和作为对接结果的评价依据。DOCK进行分子对接时，配体分子可以是柔性的。对于柔性分子其键长和键角保持不变，但二面角可旋转，并搜索数据库。在DOCK中变化柔性分子的构象时首先确定刚性片段，然后搜索构象。构象搜索采用两种方法：一种是锚定搜索(anchor-first search)；第二种方法是同时搜索(simultaneous search)。该软件目前已发展至DOCK5. 0。其应用主要包括如下环节：在windows系统上用cynwin软件模拟一个unix的环境安装dock和dms；从数据库获得靶蛋白结构和小分子候选配体的结构；可按DOCK教程进行分子对接，此过程主要包括如下几步：

靶蛋白处理，对接配基处理

↓

dms处理受体蛋白，得到球面

↓

运行sphgen.exe，得到负模

↓

选择对接位点区域

↓

生成包含对接区域的box

↓

在box内建立网格grid

↓

进行对接

↓

分析对接结果

2. AUTODOCK
http://autodock.scripps.edu/，它是由Olson研究组开发的另一种分子对接程序。其用半柔性对接的方法，即允许候选配体的构象发生变化和调整，采用模拟退火和遗传算法来寻找靶蛋白和配体最佳的相对结合构象，最终以结合自由能的大小来评价候选配体对接结果的好坏。此软件目前缺乏数据库搜索功能，仍仅限于实现单个配体和靶蛋白分子的对接。

3. Affinity
由Accelrys (MSI)和杜邦联合开发且最早实现商业化的分子对接软件。Affinity中候选配体和靶蛋白间匹配主要采用能量得分的评价方式，提供了精确和快速计算配合和受体之间非键相互作用的两种有效方法：基于格点的能量计算方法和单元多偶极(cell multipole method)方法。Affinity的分子对接主要包括通过蒙特卡罗或模拟退火计算配体分子在靶蛋白活性位点中可能的结合位置和用分子力学或分子动力学方法进行细化对接复合物两个步骤。该方法适合对配体和受体之间的相互作用模式进行精细地考察，但计算量大，难以用于大规模数据库的快速虚拟筛选。

4. GOLD
GOLD(Genetic Optimization for Ligand Docking)是一种采用遗传算法同时考虑配体构象柔性及靶蛋白活性位点部分柔性（只考虑几种残基上羟基和氨基）的分子对接程序，但限制性要求配体与受体间形成氢键。GOLD程序中遗传算法采用子种群策略，初始的500个体被等分为5个子种群，每个子种群之间允许个体迁移；将靶蛋白活性位点与配体构象信息分别被封装在两条二进制字符串中，字符串中每个字节代表一个旋转键，每个旋转键的允许变化范围在-180°~180°之间，步长为1.4°，受体与配体之间的氢键信息则被封装在两条整型字符串中。GOLD采用轮盘赌选择优势个体，进行下一代的杂交、突变及迁移操作，最后按照达到预设的操作次数结束迭代。

5. Molegro Virtual Docker (MVD)
http://molegro.com/，可在多种操作系统上运行，它提供了在Docking过程中所需的所有功能，包括从分子结构的准备到结合位点的预测以及最后小分子的结合及构象，有免费的测试版本可用。此软件的最大特色在于其高准确性的docking结果(MVD 87%、Glide 82%、Surflex 75%、FlexX 58%)，简单易用的软件界面让使用者可以很快的设定及执行docking、针对docking结果提供完整的视觉及分析工具等。

以下用基质金属蛋白酶MMP14为靶蛋白简介候选多肽配体AHQLH的对接过程。

（1）将MMP14（1BQQ.pdb中的M亚基）和候选的多肽配体AHQLH的三维结构导入到MVD软件的主界面中并调整视角，显示MMP14的三维模型，将配体AHQLH的结构表示成球棍状(图17-6)。

（2）在工作空间内选择“create surface”创建表面(图17-7)，运行MVD软件中的“preparation|detect cavities”预测配体结合域；共发现到三个潜在的结合域；综合考虑配体大小等选择恰当结合域。

（3）选择“View|Docking View”，点击“Docking|Docking Wizard”，使用默认参数进行对接；大约经过10轮的迭代之后找到了能量最优的对接模式。将对接结果保存到制定文件路径(路径名为全英文)，再读入MVD观察对接后的AHQLH同MMP14 aa.121-123位His-Asn-Glu接触(图17-8)。

图17-6
MMP14 的模型和其配体AHQLH

图17-7 结合区域预测

图17-8 优化对接状态的接触残基

四、药物的定量构效关系

预测候选小分子药物的成药性时，可将尽可能多的分子结构信息提取并量化作为药物结构特征信息的描述集；用信息处理技术，如经典统计学方法和模式识别技术等，选择恰当结构特征为自变量，建立化合物的结构与其成药性的定量关系作为预测模型，用同样参数化的候选化合物结构特征预测其成药性。这就是定量构效关系(quantitative structure-activity relationship，QSAR)的主要研究内容。

在QSAR研究过程中，需要提取描述分子结构特征的信息数量化后作为自变量。技术与方法的发展促进了QSAR模型朝三维 (3D)方向发展。配体类药物是目前临床用药的主要类型。本节简介建立小分子配体类药物与靶蛋白亲和力的QSAR模型的常用思路。

（一）小分子化合物结构特征信息的提取与量化

建立针对新靶点或新系列化合物的定量构效关系模型时，结构特征描述子集应尽可能大，以便能从中找到适合描述已知化合物与靶蛋白亲和力的结构特征描述符。此前介绍的疏水性、电性参数、立体结构特征都可包括在内，以便随后用信息处理的技术筛选有效结构特征描述参数。

同时，需较多数量的成药性相差足够大已知配体的数据，这些数据的质量是建立有预测价值的定量关系模型的决定因素。如数据量不够多，则会限制模式识别等特殊的信息处理技术的应用。

（二）定量构效关系模型的建立

建立定量构效关系模型时首先需要确定合适的自变量，获得所确定的自变量后，多元回归分析能给出对应的定量构效关系模型。

经典统计学方法，包括逐步向前或向后回归方法，都可用于选择自变量；也可通过模式识别先确定对配体亲和力影响最大的结构特征描述符，再使用逐步回归分析策略增加所需的结构特征参数。线性学习机及线性判别方法、基于距离的判别分类法、投影法等都可用于从候选的结构特征描述子集中找到对配体亲和力影响最大的参数。实践中，参数适宜进行归一化预处理以缩小不同性质参数的数量级差异对自变量选择的干扰。

应用人工神经网络也可辅助选择自变量等建立对应的定量构效关系模型。

（三）三维定量构效关系模型的建立策略

配体和靶点相互作用在功能域和配体间要求构象互补，故建立3D-QSAR模型是主导发展方向。建立3D-QSAR模型需配体三维结构，这些数据可从CSD数据库中获得，或通过分子力学等计算获得。依据是否有靶点三维结构的数据，建立3D-QSAR模型又有如下两类方法。

具备靶点三维结构数据时，可通过配体与分子对接后对复合物的构象进行优化，再分析配体与靶点三维结构之间的相互作用，并可通过自由能微扰等计算，结合分子动力学模拟，计算不同配体的结合自由能之差，并用于关联已知的配体亲和力和预测未知配体的亲和力。

不具备靶点三维结构数据时，3D-QSAR主要用通过提取候选药物结构差异与成药性差异的联系建立预测模型。此过程有两种主要策略。第一种是用成药性最好化合物的优势构象为基础，比较不同小分子的体积等三维性质，寻找与成药性相关的结构特征。另一类是比较分子场分析(comparative molecular field analysis, CoMFA)，利用小分子、基团或原子作为探针计算候选分子周围立体相互作用能，用回归方法分析这些作用能同亲和力的关系。现有CoMFA计算作用能时没有考虑疏水相互作用，且用探针计算相互作用精度较低。CoMFA目前主要用于分析离体的成药性数据。

基于靶点三维模型的3D-QSAR策略主要用于配体类候选药物，而不需要靶点三维结构模型的3D-QSAR策略还可用于非配体类药物。预期在这两种策略中更全面地考虑候选药物同靶点的相互作用，有可能进一步改善3D-QSAR模型的预测性能，这无疑对药物发现有重要意义。总体而言，3D-QSAR模型还不够成熟，有许多环节还需要进一步完善。

账号		自动登录	找回密码
密码			注册

三、配体与靶蛋白的对接和配体的虚拟筛选

浏览过的版块