|
本帖最后由 genechip 于 2011-10-14 10:24 编辑
统计中的变量分为连续型变量和分类型变量。对连续性变量可做一些基本统计描述,以此来评价数据的优劣。基本统计描述包括:N样本个数;Mean样本均值;max样本最大值;min样本最小值;Var样本方差;std_dev标准差;Median中位数;std_mean标准误等等。
下面举例来说明这些基本统计描述:
变量x是一组连续变量
编写一个用于做基本统计描述的函数
data_outline <- function(x){
n <- length(x)
m <- mean(x)
data.max<-max(x)
data.min<-min(x)
v <- var(x)
s <- sd(x)
me <- median(x)
sm <- s/sqrt(n)
data.frame(N=n, Mean=m,Max=data.max,Min=data.min, Var=v, std_dev=s, Median=me,
std_mean=sm)
}
x<-runinf(100)
> data_outline(x)
N Mean Max Min Var std_dev Median std_mean
1 100 0.1386634 2.321770 -2.048073 0.9941972 0.9970944 0.1563044 0.09970944
如果还想加入其它统计描述,可在data_outline 函数中自行编写。
对于x是否服从正态分布,可用Shapiro-Wilk W统计量作正态性检验,因此也成为正态W检验方法。当P值小于某个显著性水平(0.05),则认为样本不是来自正态分布的总体,否则承认样本来自正态分布的整体。
> shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.9891, p-value = 0.5891
从结果可见,x符合整体分布(p>0.05) |
|