找回密码
 注册
查看: 5231|回复: 3

R语言 做基本统计描述

[复制链接]
发表于 2011-10-14 10:20:54 | 显示全部楼层 |阅读模式
本帖最后由 genechip 于 2011-10-14 10:24 编辑


统计中的变量分为连续型变量和分类型变量。对连续性变量可做一些基本统计描述,以此来评价数据的优劣。基本统计描述包括:N样本个数;Mean样本均值;max样本最大值;min样本最小值;Var样本方差;std_dev标准差;Median中位数;std_mean标准误等等。

下面举例来说明这些基本统计描述:
变量x是一组连续变量
编写一个用于做基本统计描述的函数

data_outline <- function(x){
   n <- length(x)
   m <- mean(x)
   data.max<-max(x)
   data.min<-min(x)
   v <- var(x)
   s <- sd(x)
   me <- median(x)
   sm <- s/sqrt(n)

      data.frame(N=n, Mean=m,Max=data.max,Min=data.min, Var=v, std_dev=s, Median=me,
        std_mean=sm)
}


x<-runinf(100)

> data_outline(x)

    N      Mean      Max       Min       Var   std_dev    Median   std_mean
1 100 0.1386634 2.321770 -2.048073 0.9941972 0.9970944 0.1563044 0.09970944

如果还想加入其它统计描述,可在data_outline 函数中自行编写。


对于x是否服从正态分布,可用Shapiro-Wilk W统计量作正态性检验,因此也成为正态W检验方法。当P值小于某个显著性水平(0.05),则认为样本不是来自正态分布的总体,否则承认样本来自正态分布的整体。

> shapiro.test(x)

        Shapiro-Wilk normality test

data:  x
W = 0.9891, p-value = 0.5891

从结果可见,x符合整体分布(p>0.05)
回复

使用道具 举报

发表于 2011-10-27 22:05:03 | 显示全部楼层

x <- runif(100)
> x[1:5]
[1] 0.3072314 0.1988493 0.8204529 0.9692660 0.7762643
> data_outline(x)
    N      Mean       Max         Min        Var   Std_dev    Mideam
1 100 0.5198983 0.9909514 0.005848783 0.08941508 0.2990235 0.5574908
    std_mean
1 0.02990235
> shapiro.test(x)

        Shapiro-Wilk normality test

data:  x
W = 0.9437, p-value = 0.0003266
回复 支持 反对

使用道具 举报

发表于 2012-5-12 20:44:45 | 显示全部楼层
学习了。这个对我有用!
回复 支持 反对

使用道具 举报

发表于 2014-6-24 16:11:18 | 显示全部楼层
sarshiv 发表于 2012-5-12 20:44
学习了。这个对我有用!

请问楼主,如果样本量大于5000涅?file:///
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2024-11-23 20:08 , Processed in 0.024488 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表