国际单体型计划(2)-人类DNA序列变异

gene · 发表于 2010-6-4 14:46:16

版权所有，转载请注明：来源于生物统计家园-http://www.biostatistic.net

（续1）
任何两个人类基因组拷贝本之间的差异大约1% 左右，平均1/1000bp。最常见的变异类型为SNP即序列上的单个碱基多态（当然这种多态起源于历史的突变事件，是一个群体的概念。比如在人类的某条染色体的一个位置处，本来所有的人都应该是一样的都具有碱基A，但是历史上发生了一次突变A->C，并且经过漫长的历史，这个突变C被保留下来并且在人群中占有了一定的比例，比如是20%，也就是说，这个突位点是一个SNP位点，这个位点在群体中具有两个等位A/C，当然对SNP的定义是有要求的，最小的等位的频率必须大于1%）。据估计人类的群体大约有10million个SNP，平均1/300bp，这种变异占人类总变异的约90% 。剩余的变异每种的数量都不多。现有的鉴别SNP的试验技术称为分型。
几乎每个突变的都来自于单一的历史突变事件，相对任何两个人的共同祖先到现在的代数1e+4来说突变率很低，突变率为1e-8/site/generation。也正是这个原因，每个新的等位和恰巧出位于突变位点附近的染色体片断背景所关联。在单条染色体上或染色体的一部分所观测到的特殊的等位的集合称为单体型。新的单体型的形成是通过突变或重组来实现的。
这些在单体型上的SNP等位的共遗传导致了这个片段上的两个SNP位点之间的等为存在关联，这种关联成为连锁不平衡即通常所说的LD。由于重组的概率随着距离的增加而增加，因此SNPs间的连锁不平衡随着距离增加而衰减。很多先前的研究表明，人类基因组附近的 SNP具有很强或很显著的LD，也就是说临近的SNPs经常显著的关联。这种关联意味着在很多染色体的区域内只有很少的单体型，并且这些单体型代表了这些区域的大多数变异。
在某个区域的强烈的SNPs之间的关联的实际意义为：多位点分型的种类很少，选择适当的SNPs可以预测这个区域内剩余的SNP的信息。这些SNP被称为tagSNP，因此在常见的单体型区域只有少数的SNP需要被鉴别。
在基因组范围内的关联分析中需要注意的是，使用随机选择的SNP或者距离间等的SNP来进行分析是无效的。相反的关联模式必须被用来选择tagSNP。在经验研究的基础上，据估计10million个常见SNP所携带的信息，能够通过分型200000-1000000个tagSNP来提供。因此可以通过使用基因组范围内的经验的LD能够在不损失信息的情况下减少需要分型SNP的数量。
对于常见的SNP来说，趋于比稀有的SNP古老，并且LD的模式更大程度上反映出历史上的重组事件和人口的迁移，一些重组事件经常的在重组热点区域频繁的发生。这些过程的结果是祖先的染色体形成了一些马赛克。这解释了在看起来在群体内或群体间看上去无关的染色体共享了单体型和LD模式。
这些观测是发展人类单体型图的概念上的和经验上的基础，图谱将要描述变异的普通模式，包括SNP之间的关联，最有效捕获和理解这些信息的tagSNP。

账号		自动登录	找回密码
密码			注册