基因组水平蛋白质功能综合预测

xiaoliu · 发表于 2011-6-27 23:08:50

蛋白质之间的功能联系
基因组测序计划在产生完全的组成多个亚单位装配和信号通路的蛋白质列表方面取
得里程碑式的业绩。这些装配和通路现在必然被制图，Marcotte 等和  Enright 等在
此方面走了显著一步。这两个研究小组发展了不是通过氨基酸序列相似性比较的其
他特性联系起蛋白质的计算方法。通过比较系统发育（进化）谱和表达类型，以及
通过分析结构域融合（domain  fusions）新方法识别在代谢通路、信号通路或结构
复合体上功能相关的蛋白质。酵母未定性蛋白大约一半总蛋白数约四分之一
可用此方法进行功能注释。因为不依赖于直接的序列相似性，这种方法可预测与已
知功能蛋白质缺乏同源性的蛋白质功能。将会发现它们在基因组学中的许多应用，
与大规模蛋白质功能实验互为补充。
构建通路和专配有用模型的信息来自实验，最重要的通过蛋白质组学和结构基因组
学。蛋白质组学的目标是对所有的蛋白质和蛋白相互作用进行鉴定和定性。它包括
采用大规模实验方法如双杂交系统（ two-hybrid  system ）、质谱法 (mass
spectrometry,MS)、二维凝胶电泳（2D  PAGE）和 DNA 芯片杂交（DNA  microarray
hybridization）。任务大小和复杂性可由下面的假定理解：每个蛋白质有 5-50 个功
能连锁，结果在一个酵母细胞中就有 30,000-300,000 个连锁。虽然实验已确定了约
30%的酵母的功能，但是它们有时不是迅速廉价的，且不完全。因此需要用计算的
方法来预测功能。

计算方法传统上预测功能是通过与性质明确蛋白质的序列相似性比较。这样标注的
可行性是因为进化产生享有共同祖先的的同源性蛋白家族，因此有相似的序列、结
构，经常还有功能。蛋白质比较允许对酵母另  30% 的蛋白质功能进行研究。但
是，通过同源性进行功能预测受两方面的因素制约。首先，它只能用于与已知功能
蛋白质有同源性的未知蛋白质的功能预测。其次，不是总清楚匹配的蛋白质何种功
能特性为其共享，尤其对那些距离较远的匹配。
Marcotte 等和 Enright 等并未受此限制，因为他们不依赖与未知蛋白质与已知功能
蛋白质的序列相似性。而代替的是，将同样通路和装配的蛋白质分组，定义为“功
能连锁”（functionally  linked）.Marcotte 等针对出芽酵亩基因组蛋白质采用了三种
不同的方法：系统发育谱（ phylogenetic  profiles ），结构域融合 (domain-fusion
analysis)和相关  mRNA 表达类型(correlated  messenger  RNA  expression  patterns) 。
Enright 等独立发展了结构域融合分析，采用新的聚类算法用于三个原核基因组分
析。
系统发育谱依赖于蛋白质相关进化。两个蛋白质是进化相关的当它们共有一个系统
发育谱，定义为蛋白质在一组基因组中的发生率类型。仅当几个完整的基因组比较
时系统发育表达谱才能精确计算。两个蛋白质享有相似的系统发育谱被认为是功能
连锁（functionally  linked）。因此，根据系统发育谱进行的蛋白质聚类，当未知蛋
白质与一个或更多的功能已知的蛋白质归为一组时能够提供未知蛋白质的功能信
息。
结构域融合的方法鉴定含有两个分别在其它基因组的非同源性成分蛋白
（component  proteins）组成的融合蛋白(fusion  proteins)。这样的成分蛋白被认为彼
此物理上有相互作用。在两个相互作用成分蛋白之间的界面（interface）更有可能
进化当两个蛋白融合为一条单一链。著名的例子是，从细菌到真菌的色氨酸合成酶
的  α 和  β  亚单位。在一些方面，结构域融合分析与从基因邻近效应（ gene
proximity）推测功能连锁相似。
Marcotte 等也通过关联它们的  mRNA 表达类型来对酵母蛋白质进行分类。这些类
型来自  97 组公共 DNA 芯片数据，显示了大多数酵母蛋白质在正常生长、葡萄糖
缺乏孢子形成和突变基因表达的条件下的表达变化。分析建立在认为在一系列相同
条件下表达水平相互关联的蛋白质是功能连锁的。
新的功能注释经常是广义的，限制蛋白质的功能为，“代谢”或“转录”。即使随机的
一对蛋白质也有  50%的相似机率在这样广义的水平上。但是因为注释一般来自许
多连锁，比随机连锁信息量大  3-8 倍，在一些例子中与蛋白-蛋白相互作用的实验
决定相比。  例如，Marcotte 等建立了新的 MSH6 的连锁，在某些结肠癌中的 DNA
错配修复蛋白，属于 PMS1 错配修复家族，其中的突变也与人结肠癌、嘌呤生物合
成途径、RNA 修饰酶和一个未知的蛋白质家族相关，这样它们可以通过核酸修复
或修饰来研究。

这样的注释精确度如何？能覆盖多少比例的蛋白质？这些问题只能部分提出，因为
参考的功能连锁蛋白质不是很容易得到。Marcotte 和同事给酵母 2,557 个未知蛋白
的一半预测了一般功能。他们估计成对预测来确定功能的近 30%是错误的，虽然
两到三种方法联合应用使错误率降到 15%。
Enright 等通过结构域融合在三个原核基因组中仅功能连锁  215 个蛋白，但是非常
少的估计假阳性。较少的功能连锁率可能由于没有系统发育谱和  mRNA 表达方法
丢失了连锁（作者没有做这两种方法），融合事件更严格的定义以及用较少的蛋白
检测融合。尽管假阳性和显得粗糙的功能注释，计算方法使得实验者将注意力集中
在有希望的相互作用上。当得到更多的基因组数据，结构域融合和系统发育谱的方
法的预测数和精度将增加。
下一步将是提高方法预测蛋白质功能的范围、准确度和精确性。这可能在理论上，
通过考虑三维结构来做，因为蛋白质的功能更多直接由它的结构和动力学而不是它
的序列来决定。那么为什么在基因组学上结构没有序列用的广泛呢？至少有两个原
因。首先，只有一部分蛋白质有三维结构数据。这种限制在几年内随着结构基因组
学（structural  genomics）的进展而减少。结构基因组学的目标是确定大约  10,000
经仔细挑选的蛋白质结构域的结构，以便所有其它的蛋白质序列能够有很好的精确
性建模。其次，能够从结构而不是从序列提取的功能细节依赖于细胞环境下的那种
结构的细节，同样也依赖于它的动力学和能量，所有这些在现有的实验和理论技术
下难以获得。

Ramala · 发表于 2016-9-15 11:48:37

嗯，好好学习，天天向上！

账号		自动登录	找回密码
密码			注册