针对核酸序列的预测就是在核酸序列中寻找基因,找出基因的位置和功能位点的位
置,以及标记已知的序列模式等过程。在此过程中,确认一段 DNA 序列是一个基
因需要有多个证据的支持。一般而言,在重复片段频繁出现的区域里,基因编码区
和调控区不太可能出现;如果某段 DNA 片段的假想产物与某个已知的蛋白质或其
它基因的产物具有较高序列相似性的话,那么这个 DNA 片段就非常可能属于外显
子片段;在一段 DNA 序列上出现统计上的规律性,即所谓的“密码子偏好性”,也
是说明这段 DNA 是蛋白质编码区的有力证据;其它的证据包括与“模板”序列的模
式相匹配、简单序列模式如 TATA Box 等相匹配等。一般而言,确定基因的位置
和结构需要多个方法综合运用,而且需要遵循一定的规则:对于真核生物序列,在
进行预测之前先要进行重复序列分析,把重复序列标记出来并除去;选用预测程序
时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是 cDNA 序列;
很多程序对序列长度也有要求,有的程序只适用于长序列,而对 EST 这类残缺的
序列则不适用。