Haploview需要导入数据的格式（linkage格式）详细介绍

tomorrow · 发表于 2011-3-6 21:43:09

本帖最后由 tomorrow 于 2011-3-6 21:46 编辑

Haploview需要导入数据的格式（linkage格式）

Haploview的第一个主界面的linkage格式需要输入两个文件，点击左侧的Linkage Fofmat就会看到有两个导入文件的地方，一个是Data File，另一个是Locus Information File。下面详细的介绍一下这两个数据的格式，我们以Haploview自带的数据文件为例。在haploview安装的目录下（一般为C:\Program Files\HaploView）有两个数据文件：（1）sample.ped (2)sample.info。具体就是Data File处导入sample.ped文件，Locus Information File处导入sample.info数据。当然两个文件的扩展名你可以自己随意的起，Haploview有一个默认关联，即：如果你的两文件主要名称一样（比如chrom），扩展名分别为ped (chrom.ped)和info (chrom.info)，则只要导入ped文件，haploview会自动导入info文件。

下面以sample.ped和sample.info为例介绍一下Data File和Locus Information File需要输入文件格式。

一、Data File 需输入文件格式

Data File处应当导入的文件格式同sample.ped显示的一样，下面列出sample.ped文件

sample.ped文件部分内容：

IBD054 430 0 0 1 0 1  3 3  1 4  1
IBD054 412 430 431 2 2 1  3 1  3 4  1
IBD054 431 0 0 2 0 3  3 3  3 1  1
IBD058 438 0 0 1 0 3  3 3  3 1  1
IBD058 470 438 444 2 2 3  3 3  3 1  1
IBD058 444 0 0 2 0 3  3 3  3 1  1
IBD069 543 0 0 1 0 3  3 3  3 1  1
IBD069 516 543 513 1 2 3  3 3  3 1  1
IBD069 513 0 0 2 0 3  3 3  3 1  1
IBD076 573 0 0 1 0 0  0 3  1 4  1
IBD076 565 573 574 1 2 0  0 3  3 1  1
IBD076 574 0 0 2 0 0  0 3  3 1  1
IBD092 1011 0 0 1 0 3  3 3  3 1  1
IBD092 639 1011 641 1 2 3  3 3  3 1  1

在这个文件中，每一行代表一个样本个体，前六列是表头，从第七列开始每2列代表一个SNP位点(当然这个SNP位点叫什么，在那条染色体上，Haploview用另一个文件给出，比如sample.ped这个文件对应的SNP描述的信息在sample.info中)。有多少个位点后面就是位点数的2倍的列数。sample.ped文件的总列数为

总列数=6+2*位点数

下面具体解释一下每一列：

1、
第一列：代表的是家系的ID，如果你做的是家系的研究，那么你的数据家系的编号应该放到第一位。如果你分析的是无关个体，则第一列不能用同一个ID，建议用自然序号1,2,3….来替代。

2、
第二列表示个体的ID，就是你研究的所有个体的编号。在同一个家系内不可以重复，不同的家系间可以重复。如果做无关个体的研究则每个个体的编号不能重复。

3、
第三列和第四列代表同第二列个体之间的家系关系，第三列代表父亲的ID，第四列代表母亲的ID，如果个体的父亲、母亲中某一个没有测到样本的话，则标记为0，如果你做无关个体的研究，则第三列，第四列都赋值为0。

例：一个核心家系的数据，来自于sample.ped文件的前三行

IBD054 430 0 0 1 0 1  3 3  1 4  1
IBD054 412 430 431 2 2 1  3 1  3 4  1
IBD054 431 0 0 2 0 3  3 3  3 1  1

表示家系编号为IBD054，这个家系中有三个个体430,412,和431。第一个个体430的父亲的信息没有检测到，所以第一行第三列用0表示，他的母亲的信息也没测到，所以第一行第四列用0表示。第二个个体412的父亲为430，母亲为431，所以第二行第三列为430，第二行第四列为431。. 第三个个体431的父亲的信息没有检测到，所以第三行第三列用0表示，他的母亲的信息也没测到，所以第三行第四列用0表示。

4、
第五列表示对应第二列个体的性别信息。1代表男性，2代表女性。

5、
第六列表示第二列个体的患病状态。0表示疾病状态未知；1表示个体未患病，2代表个体患病。

6、
第七列以后，每两列代表一个SNP位点(由于是二倍体，所以同一个位置有两个值)，1代表碱基A；2代表碱基C；3代表碱基G；4代表碱基T。缺失数据用0表示。当然你也不用这个编码，可以自己任意的定义（比如每个位点都是二态的，就可以用1,2分别代表该位点的2个等位，但需要用额外的文件记录好你每个位点1代表什么，2代表什么）

实例详解：

IBD054 430 0 0 1 0 1  3 3  1 4  1
IBD054 412 430 431 2 2 1  3 1  3 4  1
IBD054 431 0 0 2 0 3  3 3  3 1  1

总的来说，以上面三行数据为例，第一行：表示，个体430是IBD054中的一个个体，父亲未知，母亲未知，是个男性，疾病状态未知，第一个SNP位点的两个等位为1,3 （也可以写为3,1）；第二个SNP位点的两个等位为3,1（也可以写为1,3）；第三个SNP位点的两个等位为4,1（也可以写为1,4）。第二行：表示，个体412是IBD054中的一个个体，父亲是439，母亲是431，是个女性，疾病状态为患病个体，第一个SNP位点的两个等位为1,3；第二个SNP位点的两个等位为1,3；第三个SNP位点的两个等位为4,1。.

这样，就得到了每个个体的详细的SNP等位的信息。但是我们仍然不知道每个SNP位点在染色体的什么位置，这就需要另外一个专门描述信息的文件sample.info，也就是Locus Information File需要输入文件格式。

二、Locus Information File需要输入文件格式

Locus Information File处应当导入的文件格式同sample.info显示的一样，下面列出sample.ped文件：

IGR1118a_1 274044
IGR1119a_1 274541
IGR1143a_1 286593
IGR1144a_1 287261
IGR1169a_2 299755
IGR1218a_2 324341
IGR1219a_2 324379
IGR1286a_1 358048
TSC0101718 366811
IGR1373a_1 395079

这个文件包含两列，第一列为SNP的名字，第二列为SNP的物理位置（bp）。很多情况下我们使用的SNP的名字为dbSNP中的名字，是用rs#表示的。因此第一列很多情况下rs开头的名称。第二列一般都是从小到大的。这个文件的行数必须和sample.ped文件中的第七列以后的SNP数目相同，并且一一对应，千万不能错。

下面再展示一个以rs开头的文件。

rs13434344 274044
rs234524345 274541
rs24552352 286593
rs245435545 287261
rs534534534 299755
rs5345345345 324341
rs6456454555 324379

有了这两个文件，我们就可以知道每个个体的，家系情况，性别，患病情况，测量了那些SNP位点（SNP名和染色体上的物理位置）还有每个SNP位置的同源染色提上的2个等位的详细信息。可以利用这些基本的信息进行后续的分析。

lxbfc · 发表于 2012-8-29 08:07:56

正需要，学习了。

账号		自动登录	找回密码
密码			注册

Haploview需要导入数据的格式（linkage格式）详细介绍

浏览过的版块