找回密码
 注册
查看: 3952|回复: 0

双序列比对blast介绍

[复制链接]
发表于 2011-6-27 22:30:47 | 显示全部楼层 |阅读模式
序列两两比对
序列比对的理论基础是进化学说,如果两个序列之间具有足够的相似性,就推测二
者可能有共同的进化祖先,经过序列内残基的替换、残基或序列片段的缺失、以及
序列重组等遗传变异过程分别演化而来。序列相似和序列同源是不同的概念,序列
之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实的验证。在残
基-残基比对中,可以明显看到序列中某些氨基酸残基比其 它位置 上的残 基更保
守,这些信息揭示了这些保守位点上的残基对蛋白质的结构和功能是至关重要的,
例如它们可能是酶的活性位点残基,形成二硫键的半胱氨酸残基,与配体结合部位
的残基,与金属离子结合的残基,形成特定结构  motif 的残基等等。但并不是所有
保守的残基都一定是结构功能重要的,可能它们只是由于历史的原因被保留下来,
而不是由于进化压力而保留下来。因此,如果两个序列有显著的保守性,要确定二
者具有共同的进化历史,进而认为二者有近似的结构和功能还需要更多实验和信息
的支持。通过大量实验和序列比对的分析,一般认为蛋白质的结构和功能比序列具
有更大的保守性,因此粗略的说,如果序列之间的相似性超过  30%,它们就很可
能是同源的。
早期的序列比对是全局的序列比较,但由于蛋白质具有的模块性质,可能由于外显
子的交换而产生新蛋白质,因此局部比对会更加合理。通常用打分矩阵描述序列两
两比对,两条序列分别作为矩阵的两维,矩阵点是两维上对应两个残基的相似性分
数,分数越高则说明两个残基越相似。因此,序列比对问题变成在矩阵里寻找最佳
比对路径,目前最有效的方法是 Needleman-Wunsch 动态规划算法,在此基础上又
改良产生了 Smith-Waterman 算法和 SIM 算法。在 FASTA 程序包中可以找到用动
态规划算法进行序列比对的工具 LALIGN,它能给出多个不相互交叉的最佳比对结
果。
在进行序列两两比对时,有两方面问题直接影响相似性分值 :取代 矩阵和 空位罚
分。粗糙的比对方法仅仅用相同/不同来描述两个残基的关系,显然这种方法无法
描述残基取代对结构和功能的不同影响效果,缬氨酸对异亮氨酸的取代与谷氨酸对
异亮氨酸的取代应该给予不同的打分。因此如果用一个取代矩阵来描述氨基酸残基
两两取代的分值会大大提高比对的敏感性和生物学意义。虽然针对不同的研究目标
和对象应该构建适宜的取代矩阵,但国际上常用的取代矩阵有  PAM 和 BLOSUM
等 , 它 们 来 源 于 不 同 的 构 建 方 法 和 不 同 的 参 数 选 择 , 包 括  PAM250 、
BLOSUM62、BLOSUM90、BLOSUM30 等。对于不同的对象可以采用不同的取代
矩阵以获得更多信息,例如对同源性较高的序列可以采用 BLOSUM90 矩阵,而对
同源性较低的序列可采用 BLOSUM30 矩阵。
空位罚分是为了补偿插入和缺失对序列相似性的影响,由于没有什么合适的理论模
型能很好地描述空位问题,因此空位罚分缺乏理论依据而更多的带有主观特色。一
般的处理方法是用两个罚分值,一个对插入的第一个空位罚分,如 10-15;另一
个对空位的延伸罚分,如  1-2。对于具体的比对问题,采用不同的罚分方法会取
得不同的效果。
对于比对计算产生的分值,到底多大才能说明两个序列是同源的,对此有统计学方
法加以说明,主要的思想是把具有相同长度的随机序列进行比对,把分值与最初的
比对分值相比,看看比对结果是否具有显著性。相关的参数E 代表随机比对分值
不低于实际比对分值的概率。对于严格的比对,必须 E 值低于一定阈值才能说明
比对的结果具有足够的统计学显著性,这样就排除了由于偶然的因素产生高比对得
分的可能。
Genbank、SWISS-PROT 等序列数据库提供的序列搜索服务都是以序列两两比对为
基础的。不同之处在于为了提高搜索的速度和效率,通常的序列搜索算法都进行了
一定程度的优化,如最常见的 FASTA 工具和 BLAST 工具。FASTA 是第一个被广
泛应用的序列比对和搜索工具包,包含若干个独立的程序。FASTA 为了提供序列
搜索的速度,会先建立序列片段的“字典”,查询序列先会在字典里搜索可能的匹配
序列,字典中的序列长度由 ktup 参数控制,缺省的 ktup=2。FASTA 的结果报告中
会给出每个搜索到的序列与查询序列的最佳比对结果,以及这个比对的统计学显著
性评估 E 值。FASTA 工具包可以在大多提供下载服务的生物信息学站点上找到。
BLAST 是现在应用最广泛的序列相似性搜索工具,相比 FASTA 有更多改进,速度
更快,并建立在严格的统计学基础之上。NCBI 提供了基于 Web 的 BLAST 服务,
用户可以把序列填入网页上的表单里,选择相应的参数后提交到数据服务器上进行
搜索,从电子邮件中获得序列搜索的结果。BLAST 包含五个程序和若干个相应的
数据库,分别针对不同的查询序列和要搜索的数据库类型。其中翻译的核酸库指搜
索比对时会把核酸数据按密码子按所有可能的阅读框架转换成蛋白质序列。


BLAST 对序列格式的要求是常见的
FASTA 格式。FASTA 格式第一行是描述行,
第一个字符必须是“>”字符;随后的行是序列本身,一般每行序列不要超过 80 个字
符,回车符不会影响程序对序列连续性的看法。序列由标准的  IUB/IUPAC 氨基酸
和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;
在氨基酸序列里允许出现“U”和“*”号;任何数字都应该被去掉或换成字母(如,不
明核酸用“N”,不明氨基酸用“X”)。此外,对于核酸序列,除了  A、C、G、T、U
分别代表各种核酸之外,R 代表 G 或 A(嘌呤);Y 代表 T 或 C(嘧啶);K 代表 G 或
T(带酮基);M 代表 A 或 C(带氨基);S 代表 G 或 C(强);W 代表 A 或 T(弱);B 代
表 G、T 或 C;D 代表 G、A 或 T;H 代表 A、C 或 T;V 代表 G、C 或 A;N 代表
A、G、C、T 中任意一种。对于氨基酸序列,除了  20 种常见氨基酸的标准单字符
标识之外,B 代表 Asp 或 Asn;U 代表硒代半胱氨酸;Z 代表 Glu 或 Gln;X 代表
任意氨基酸;“*”代表翻译结束标志。
BLAST 的当前版本是  2.0,它的新发展是位点特异性反复  BLAST(PSI-BLAST) 。
PSI-BLAST 的 特 色是 每次 用  profile 搜 索数 据 库后 再利 用 搜索 的结 果 重新 构建
profile,然后用新的  profile 再次搜索数据库,如此反复直至没有新的结果产生为
止。PSI-BLAST 先用带空位的 BLAST 搜索数据库,将获得的序列通过多序列比对
来构建第一个 profile。PSI-BLAST 自然地拓展了 BLAST 方法,能寻找蛋白质序列
中的隐含模式,有研究表明这种方法可以有效的找到很多序列差异较大而结构功能
相 似的 相 关 蛋白 , 甚 至可 以 与 一些 结 构 比对 方 法, 如  threading  相媲 美 。 PSI-
BLAST 服务可以在 NCBI 的 BLAST 主页上找到,还可以从 NCBI 的 FTP 服务器上
下载 PSI-BLAST 的独立程序。
NCBI 的 BLUST 网址是:http://www.ncbi.nlm.nih.gov/BLAST/

下载 BLUST 的网址是:ftp://ncbi.nlm.nih.gov/blast/
下载 FASTA 的网址是:ftp://ftp.virginia.edu/pub/fasta/

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-12-4 01:55 , Processed in 0.022581 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表