找回密码
 注册
查看: 1023|回复: 0

R语言 sigclust包 sigclust()函数中文帮助文档(中英文对照)

[复制链接]
发表于 2012-9-30 02:05:35 | 显示全部楼层 |阅读模式
sigclust(sigclust)
sigclust()所属R语言包:sigclust

                                        Statistical Significance of Clustering
                                         统计显着性的聚类

                                         译者:生物统计家园网 机器人LoveR

描述----------Description----------

Perform a significance analysis of clustering. SigClust studies whether clusters are really there, using the 2-means (k = 2) clustering index as a statistic. It assesses the significance of clustering by simulation from a single null Gaussian
执行意义聚类分析。聚类的SigClust研究是否真的存在,使用2-均值(k = 2)聚簇索引的统计。它从一个单一的空高斯聚类的意义,通过仿真评估


用法----------Usage----------


sigclust(x, nsim, nrep=1, labflag=0, label=0, icovest=1)



参数----------Arguments----------

参数:x
A matrix or data.frame of expression data; each row corresponds to a sample and each column to a variable. Data may be properly normalized and may not contain missing values.
A矩阵或数据框的表达数据的每一行对应于样品并和一个变量的每一列。数据可适当标准化,可能不包含缺失值。


参数:nsim
Number of simulated Gaussian samples to estimate the distribution of the clustering index for the main p-value computation.
模拟的高斯样本来估计主的p-值计算的分布的聚簇索引数目。


参数:nrep
Number of steps to use in 2-means clustering computations (default=1, chosen to optimize speed). This has no effect, unless labflag=0.
使用2-means聚类计算(默认值= 1,选择来优化速度)。这有没有影响,,除非labflag = 0。


参数:labflag
An indicator variable specifying if the p-values is for an assigned cluster or for using 2-means; for user assigned clusters labflag=1, otherwise labflag=0.
一个指示符变量的p值的指定,如果是,用于分配的聚类或使用2  - 装置,为用户分配的聚类labflag = 1,否则labflag = 0。


参数:label
If labflag=0, SigClust uses labels generated by 2-means clustering. If labflag=1, label needs to be set as a numeric, integer vector of 1s and 2s with length nrow(x) which indicates given cluster labels (grouping to be tested for significance).
,如果labflag = 0,SigClust使用所产生的2-means聚类的标签。如果labflag = 1,标记需要被设置为一个数值,整数向量长度1s和2snrow(x)表示给定的聚类标签(分组将测试其意义)。


参数:icovest
Covariance estimation type: 1. Use a soft threshold method as constrained MLE (default); 2. Use sample covariance estimate (recommended when diagnostics fail); 3. Use original background noise thresholded estimate (from Liu, et al, (2008)) ("hard thresholding").
协方差估计类型:1。使用软阈值法的约束MLE(默认)2。使用样本协方差估计值(诊断失败时,建议使用)3。使用原来的背景噪声阈值估计(Liu等人(2008))(“硬阈值”)。


Details

详细信息----------Details----------

The SigClust method addresses the problem of assessing statistical significance of clustering as a testing procedure. The null hypothesis of SigClust is that the data are from a single Gaussian distribution. The signicance of a given clustering is judged by calculating an appropriate p-value. The SigClust method uses a test statistic called the cluster index (CI) which is defined to be the sum of within-class sums of squares about the mean divided by the total sum of squares about the overall mean. The null distribution of the CI can be approximated by simulating from a single Gaussian distribution, fit to the data. Because CI is mean shift invariant, it is enough to take the mean to be 0.  Because CI is rotation invariant, we take the covariance to be diagonal.  There are three options for estimating the eigenvalues of the covariance matrix: 1. Soft Thresholding (recommended for high dimensions, when the diagnostics indicate assumptions are met). 2. Sample eigenvalues (recommended for low dimensions, and when assumptions, such as Gaussianity fail, but known
SigClust方法解决的问题作为测试程序的聚类评估统计学意义。的SigClust的零假设是,这些数据是从一个单一的高斯分布。的一个给定的聚类signicance判断通过计算适当的p-值。 SigClust方法使用称为聚类指数(CI),它被定义为类内的款项的总和的平方有关的检验统计量的平均值除以有关的整体平均平方的总和。可以通过模拟从一个单一的高斯分布近似的CI的零分布,适合的数据。因为CI是指平移不变性,这是不够的,采取的意思是0。由于CI是旋转不变的,我们采取的协方差为对角线矩阵。有三个选项可用于估计的协方差矩阵的特征值:1。软阈值(建议为高维空间中,假设成立时的诊断显示)。 2。特征值(建议低维假设,如高斯失败,但已知的


值----------Value----------

The function returns an object of class sigclust. See
该函数返回一个对象类sigclust。看


(作者)----------Author(s)----------


Hanwen Huang:
<a href="mailto:hanwenh@email.unc.edu">hanwenh@email.unc.edu</a>; Yufeng Liu: <a href="mailto:yfliu@email.unc.edu">yfliu@email.unc.edu</a>;
J. S. Marron: <a href="mailto:marron@email.unc.edu">marron@email.unc.edu</a>



参考文献----------References----------

Yufeng, Hayes, David Neil, Nobel, Andrew and Marron, J. S, 2008, Statistical Significance of Clustering for High-Dimension, Low-Sample Size Data, Journal of the American Statistical

参见----------See Also----------

plot-methods.
plot-methods。


实例----------Examples----------


## Simulate a dataset from a collection of mixtures of two[#模拟数据集的集合,它们中的两种]
## multivariate Gaussian distribution with different means.[#多元高斯分布用不同的方法。]

mu <- 5
n <- 30
p <- 500
dat <- matrix(rnorm(p*2*n),2*n,p)
dat[1:n,1] <- dat[1:n,1]+mu
dat[(n+1)2*n),1] <- dat[(n+1)2*n),1]-mu

nsim <- 1000
nrep <- 1
icovest <- 3
pvalue <- sigclust(dat,nsim=nsim,nrep=nrep,labflag=0,icovest=icovest)
#sigclust plot[sigclust图]
plot(pvalue)


转载请注明:出自 生物统计家园网(http://www.biostatistic.net)。


注:
注1:为了方便大家学习,本文档为生物统计家园网机器人LoveR翻译而成,仅供个人R语言学习参考使用,生物统计家园保留版权。
注2:由于是机器人自动翻译,难免有不准确之处,使用时仔细对照中、英文内容进行反复理解,可以帮助R语言的学习。
注3:如遇到不准确之处,请在本贴的后面进行回帖,我们会逐渐进行修订。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2025-5-22 18:34 , Processed in 0.022835 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表