找回密码
 注册
查看: 7387|回复: 11

生物统计实战演习系列(一)— 数据全貌预览之理论篇

[复制链接]
发表于 2010-6-27 12:08:32 | 显示全部楼层 |阅读模式
本帖最后由 六出 于 2010-6-27 17:18 编辑

转载请注明出处:来自生物统计家园:http://www.biostatistic.net

序:
  对于统计来说,不仅限于生物统计,数据是其命脉,没有数据何谈分析。在这个靠事实、靠数据说话的年代,想说服别人相信你所得到的结果需要从多方位,多角度给出证据,并进行适当的阐述。当然好的实验设计是必不可少的,但好的实验设计需要对统计思想有深度理解之后才能很好的进行。为了做一个优秀的生物统计师、优秀的生物统计工作者,还必须要先从最辛苦的体力劳动者开始,踏踏实实的进行基本的数据分析。很多人在学生物统计的时候很喜欢拿统计书看来看去,推导来推导去,最后发现自己的耐心在枯燥的公式面前时那么的苍白无力。还是重申以前的观点,尽管对于生物统计师来说思想是最重要的,但作为一个初学者,或者数据处理业务不熟练的boy或girl来说,还是踏踏实实的做好数据处理分析工作。这些工作是最初级的,可能你根本看不上眼,但当你真正想操作的时候却经常会出现眼高手低的情况,这些往往反映在面对非常熟悉的统计方法,不知如何实现,实现了后,结果不会看,不知道结果里面蕴含着什么信息等等。因此,不管是生物统计师,还是生物信息工程师,还是需要从基本的数据分析开始,知晓如何操作,操作过后,再重新精读所实现的理论公式,一定要注意理解统计的整个过程的思想精髓,其中包含很多优秀的哲学思想。毕竟这是对世界的一个人认识。书归正转,从最基本的开始,慢慢将逐步阐述一些数据分析,处理的基本操作方式,成为一名优秀的操作者之后,你会成为一名优秀的思想者。

数据全貌预览之理论篇

一、数据是洞测事物关系的基础
随着事物复杂程度的增加,单从感官上来做判断已经不可能,因此需要对事物或事物之间的关系作一个综合的评价。第一步就是对后所感兴趣的事情进行评价或测量,也因此获得了大量的数据,这些数据体现着事物之间的关系。获得数据的方式从目的上来看基本包括两方面,一种是目的性比较强的做法,针对某种特殊的情况测量观察数据,这种也可以称为实验设计,再做之前就知道自己该做什么,有针对性的做数据,按步骤分析。另一种则目的性较广泛,测数据时只是知道数据里包含信息,具体包含哪些关系,不清楚,因此需要统计分析来处理,这也就衍生了另一个大方向:数据挖掘。不管怎么,作为统计分析的第一步,面临的是大量的数据。

二、原始数据处理的基本原则
不管是通过哪种情况获得的初始数据,或称为原始数据基本上不是理想的完善的数据,由于种种条件的限制,某些数据无法测得,导致数据缺失,缺失数据对数据的采集来说是相当普遍的,原始数据一般是不能用来分析的,因为现有的数学公式也好,统计软件也好,一个基本的要求是数据完整,没有数据的也要赋予相应的值。因此原始数据必须进行核对,按照自己的要求或公式满足的要求进行缺失数据处理。缺失数据处理的方式有很多,像什么贝叶斯算法啊,等等,但不管怎么样,缺失数据处理都有一个原则:消除缺失数据所对分析造成的影响,尽量包含更多的信息量,处理这个问题需要一定的技巧。下面将详细阐述一下,希望能给大家带来帮助。

采集的数据一般来说包含两个大的方面,一是评价指标,另一个是样本,评价指标可以有很多种,样本当然是条件允许下多点好。当然缺失数据也就包含两个基本的方面,一个事指标的数据缺失率,另一方面就是样本的缺失率。
以下所处理所针对的是普通的多样本、多指标的情况。如果对于最简单的单指标、多样本的情况,那你就把所有没指标的样本去掉好了。

下面对多指标,多样本的情况进行讨论:

1、样本缺失处理思想
矛盾的焦点就在于辛辛苦苦收集来的珍贵的数据,如果要求太严格,有某个指标数据测不到就把这个样本丢掉的话,这种宁可错杀一千也不放过一个的完美主义做法就会大大破坏数据整体信息的含量,浪费数据。这种情况下一般不需要对数据进行填补,而需要对数据进行筛选,原则就是适当的抛弃,具体的标准,有的采用50%或75%作为分界线,对于某个样本,如果所测指标数据的完整度低于50%或75%的话则去掉该样本。

2、指标缺失数据的处理思想
对于某个指标,如果样本缺失严重的话也不能用,用来只能带来错误信息,当然说的不是微小样本的处理方式,这里所说的样本一般要超过30个或50个。具体某个指标样本的缺失率的具体标准也可以参照上面的标准,采用50%或75%作为分界线,对于某个指标,如果有具体值的样本的比例低于50%或75%的话则去掉该指标。
  这里就涉及到缺失数据的填补问题,对于有少数缺失数据的数据源,进行适当的填补来保证数据的完整性,毕竟测得数据不容易,丢掉太可惜。
   填补缺失数据的基本原则包含两方面,
一方面就是缺失数据填补不能影响你分析的结果,也就是说新填补的值是你人为加上去的,人为加上去的东西不能影响数据的真实性,不能影响你的分析结果。那这个原则的理论基础是什么呢?就是统计思想的核心,数据信息包含在数据差异里面,没有差异就没有信息,没有鉴别力,所以要尽量的不要让你的缺失数据体现出差异,体现出信息。举个具体的例子,比如正态数据,数据差异从方差种有所体现,也就是样本和均值差异的大小,因此一个具体的处理方案就是,如果对于某个指标,测了100个样本,有99个好的,一个数据缺失,并且你不想扔掉这个样本,因为这个样本的其他测量指标的值还是存在的,这是就采用均值进行填补,因为这样处理后进行差异分析时,填补的值和均值的差异为0,对整体的差异不会有贡献,也就不会影响结果。这只是个简单的例子,但是代表了这类型填补的基本原理:为了能够分析,添加个废的数据占个位置。
另一方面如果你还有更好的最求的话,如果你不太想填补无用的数据,很想恢复数据原来的面貌,这个时候你就需要采用特殊的方法,比如贝叶斯推导,用先验的知识或周围数据的状态推出这个点的值,这个需要你先确定或对数据的依赖关系进行先期分析,最后根据你数据的大体关系,推出这个值。这样做当然也是冒着风险的,如果对了好办,错了,将会干扰你的结果。实际情况普通的数据处理基本不推荐这种方式,除非你对数据个指标之间的依赖关系和数据整体构建很清楚,基本还是第一方面的倾向大点。此时数学专业人士也在做很大的努力使得犯尽可能小的错误的情况下最大可能准确的还原数据,这一点大家了解就行,实战中往往不喜欢冒风险做事情,还是喜欢用第一种方式填补之后对结果没影响。

人们处理这种问题还是喜欢中庸之道,也就是说我添加的这个东西,如果尽量想恢复出本来的面貌,那可能会有风险,填补对了还好,如果添错了,就会对结果造成一定的影响,这样还不如打个折中,用中间值填补,添对添错不会对我的结果造成影响,也相当于把这个点的值作废了。

有点写累了,休息休息再写

转载请注明出处:来自生物统计家园:http://www.biostatistic.net,生物统计家园网站版权所有。未经许可不得利用本贴任何部分出版任何电子、印刷制品。




回复

使用道具 举报

发表于 2010-7-19 23:07:23 | 显示全部楼层
顶顶顶,哈哈不错
回复 支持 反对

使用道具 举报

发表于 2010-8-19 16:16:12 | 显示全部楼层
继续关注本系列  版大加油哇
回复 支持 反对

使用道具 举报

发表于 2011-3-16 08:59:57 | 显示全部楼层
继续呀,可以好好地做成一本书的.
回复 支持 反对

使用道具 举报

发表于 2011-5-11 08:22:51 | 显示全部楼层
这么长时间都没写了
回复 支持 反对

使用道具 举报

发表于 2011-5-11 14:51:01 | 显示全部楼层
继续关注本系列  版大加油哇
回复 支持 反对

使用道具 举报

发表于 2011-7-28 20:49:18 | 显示全部楼层
顶,多发点来,我要学习实战经验
回复 支持 反对

使用道具 举报

发表于 2012-1-31 08:07:04 | 显示全部楼层
关注关注关注
回复 支持 反对

使用道具 举报

发表于 2012-2-10 09:47:28 | 显示全部楼层
好文章,谢谢分享!
回复 支持 反对

使用道具 举报

发表于 2012-2-19 09:56:53 | 显示全部楼层
突然发现的好东西 希望斑竹 多来几个系列  
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|生物统计家园 网站价格

GMT+8, 2025-1-22 22:54 , Processed in 0.032352 second(s), 15 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表