找回密码
 注册
查看: 16318|回复: 2

关于使用超几何分布做基因富集分析的一次讨论

[复制链接]
发表于 2010-12-10 23:04:05 | 显示全部楼层 |阅读模式
转载请注明:来自生物统计家园:http://www.biostatistic.net

一次关于超几何分布的讨论,希望能和大家一起交流,共同讨论学习,可以持续跟帖~~·

A
22:14:27

10000基因,500个差异
其中一个PATHWAY有800个基因,那有50个基因来自这个PATHWAY的显著性,用超几何分布 怎么计算显著性

A  22:15:27
你知道超几何分布吗
B  22:15:50
你不就做富集分析吗
A  22:16:02
是的
B  22:16:50
背景10000
其中500个差异

一个通路相当于一次抽样,抽出800个
其中差异的50个
B  22:16:54
就这四个数
B  22:17:24
服从超几何分布,对应下公式计算就ok
A  22:17:24
不用减
800
B  22:17:49
减掉800啥意思

A  22:18:35
就是把背景分成两部分了呀
抽出的800,和没有抽出的
9200
A  22:19:13
这样才符合超几何分布呀

A  22:19:49
那你说
呢?

B  22:19:51
怎么可能,超几何分布,你再看看里了
B  22:19:55
理论
B  22:19:58
就一个背景
B  22:20:37
例如在有N个样本,其中m个是不及格的。超几何分布描述了在该N个样本中抽出n个,其中k个是无效的的机率:
B  22:21:00
在有N个样本,其中m个是不及格的,
注意,是其中,
B  22:21:14
认不是有N个好的,m个不好的
A  22:21:22
==
A  22:23:00
GO
功能显著性富集分析给出与基因组背景相比,在差异表达基因中显著富集的GO功能条目,从而给出差异表达基因与哪些生物学功能显著相关。该分析首先把所有差异表达基因向Gene Ontology数据库(http://www.geneontology.org/)的各个term映射,计算每个term的基因数目,然后应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著富集的GO条目,其计算公式为
其中,N为所有Unigene中具有GO注释的基因数目;n为N中差异表达基因的数目;M为所有Unigene中注释为某特定GO term的基因数目;m为注释为某特定GO term的差异表达基因数目。计算得到的pvalue通过Bonferroni校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的GO term定义为在差异表达基因中显著富集的GO term。通过GO功能显著性富集分析能确定差异表达基因行使的主要生物学功能。
A  22:23:14


A  22:23:24
你收不到图片
A  22:23:25

A  22:23:41
N
为所有Unigene中具有GO注释的基因数目;n为N中差异表达基因的数目;M为所有Unigene中注释为某特定GO term的基因数目;m为注释为某特定GO term的差异表达基因数目
B  22:23:50
是啊
B  22:24:03
就一个背景N
A  22:24:42

那刚才的那个
就这样

1-phyper(50,800,10000,500)
A  22:24:47
我怎么感觉不对呀
B  22:24:51

A  22:25:20
我在看看超几何分布
B  22:25:29
恩,再看看吧
A  22:25:57
超几何分布中,M,N 是独立的
B  22:26:13
本来就是独立的
A  22:26:16
这个 10000包括了800,所以要减去吧
B  22:26:24
独立又不是不相容
B  22:26:41
你把独立的概念和不相容搞混了
B  22:26:43
呵呵
B  22:26:52
独立是可以存在的
A  22:27:53
产品抽样检查中经常遇到一类实际问题,假定在N件产品中有M件不合格品,即不合格率p=M/N.在产品中随机抽n件做检查,发现X件是不合格品,可知X的概率函数为P(X=k)=C(k,M)*C(n-k,N-M)/C(n,N)
B  22:27:58
p(AB)=p(A)P(B)这叫独立

p(AB)=0这叫不相容
A  22:28:02
看到了吧
A  22:28:08
N-M
A  22:28:24
http://baike.baidu.com/view/984313.htm
B  22:28:59
一共你看这个公式的字母里面自己算的
B  22:29:17
这是公式的构架,
A  22:29:49
那和刚才的那个例子是一样的呀
B  22:30:20
N-M
没错,
但这是公式自己算的
之前N就是所有的,M就是所有的里面的M个
不用你算,公式会自己算
你要算完就不对了

B  22:31:18
你自己吧M的值变成N-M了,带到公式里面公式还要再减一下那不就变成N-M-M了吗
A  22:31:47

B  22:32:04
假定在N件产品中有M件不合格品,机抽n件做检查,发现X件是不合格品
这几个数就不要再动了
A  22:32:07
1-phyper(50,800,10000,500)
A  22:32:30
计算时,它会自动减的?
B  22:32:51
不信你看看原代码
B  22:32:52
哈哈
A  22:33:06
R
的,你会吧
B  22:33:22
或者你再看看参数说明
A  22:34:01
Hypergeometric {stats} R Documentation
The Hypergeometric Distribution
Description

Density, distribution function, quantile function and random generation for the hypergeometric distribution.
Usage

dhyper(x, m, n, k, log = FALSE)
phyper(q, m, n, k, lower.tail = TRUE, log.p = FALSE)
qhyper(p, m, n, k, lower.tail = TRUE, log.p = FALSE)
rhyper(nn, m, n, k)

Arguments
x, q  vector of quantiles representing the number of white balls drawn without replacement from an urn which contains both black and white balls.
m  the number of white balls in the urn.
n  the number of black balls in the urn.
k  the number of balls drawn from the urn.
p  probability, it must be between 0 and 1.
nn  number of observations. If length(nn) > 1, the length is taken to be the number required.
log, log.p  logical; if TRUE, probabilities p are given as log(p).
lower.tail  logical; if TRUE (default), probabilities are P[X ≤ x], otherwise, P[X > x].
A  22:34:
22
m  the number of white balls in the urn.
n  the number of black balls in the urn.
A  22:34:
34
m ,n
相互独立的
A  22:37:26
怎么解释呢
B  22:37:38
稍等,我看看
A  22:38:09
B  22:32:04
假定在N件产品中有M件不合格品,机抽n件做检查,发现X件是不合格品
这几个数就不要再动了
是不是要 N-M
A  22:39:06
背景
10000
其中500个差异

一个通路相当于一次抽样,抽出800个
其中差异的50个
应该是 10000-500
1-phyper(50,800,10000-500,500)

A  22:39:55

B  22:40:02
。。。。
A  22:40:25
哦,我以为你走了
是不是
背景
10000
其中500个差异

一个通路相当于一次抽样,抽出800个
其中差异的50个
应该是 10000-500
1-phyper(50,800,10000-500,500)

A  22:41:06
1-phyper(50,500,10000-500,800)?

A  22:41:56
1-phyper(50,500,10000-500,800)
应该是这样才对
A  22:41:59
哈哈
B  22:43:53
m  the number of white balls in the urn.
n  the number of black balls in the urn.
k  the number of balls drawn from the urn.
B  22:44:23
k  the number of balls drawn from the urn.
这个肯定是抽样
A  22:44:28
是的
A  22:45:08
背景10000
其中500个差异

一个通路相当于一次抽样,抽出800个
其中差异的50个
1-phyper(50,500,10000-500,800) 应该是这样才对

A  22:45:09
对吧
A  22:45:25
这样算出P-VALUE
B  22:46:33
别着急,我理顺下

x, q  vector of quantiles representing the number of white balls drawn without replacement from an urn which contains both black and white balls.
这个是抽样中白的

B  22:46:37
对吧
A  22:46:43
好的
B  22:47:03
那现在就差一个背景和一个背景中白球
B  22:47:57
m  the number of white balls in the urn.
n  the number of black balls in the urn.

这个按字面理解应该是你说的意思
A  22:47:58
http://stat.ethz.ch/R-manual/R-patched/library/stats/html/Hypergeometric.html
A  22:48:02
你看这
B  22:49:02
我觉得你还是用超几何原始公式算下,
然后再用这个命令算下,对下结果
A  22:49:20
好的
B  22:49:26
R
包本来就是开源的,谁传上的也不知道
B  22:50:41
而且,我觉得对于一个自然的程序来说,方便用的话不应该用你自己计算一些东西
B  22:50:43
呵呵
B  22:51:09
保险起见,自己用公式算下,再用他命令对下,免的错了

回复

使用道具 举报

发表于 2011-1-19 00:05:16 | 显示全部楼层
“计算得到的pvalue通过Bonferroni校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的GO term定义为在差异表达基因中显著富集的GO term。”
Bonferroni校正如何做?
谢谢!
回复 支持 反对

使用道具 举报

发表于 2011-1-19 22:15:21 | 显示全部楼层
bonferroni校正 ,来源于如下错误叠加,  1-(1-a)^n=a'
本来单次检验的时候,a为0.05,但次数多了导致总体的错误率多于0.05,所以要想让a'=0.05,反推a就是你校正后的显著水平

还有一种更简单的,就是   校正后的显著水平=0.05/检验次数
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-11-21 23:45 , Processed in 0.030149 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表