数据处理是日常科研工作中很重要的一部分,这里就会涉及到统计学知识。但说真的,统计是一个难倒了很多人的学科,科研本身就是个被动掉头发的事情,遇到了统计之后,很多人都会为此主动薅掉无数根头发,平日里大家总是觉得现在有那么多方便快捷的数据软件,直接分析就好了,但是这种投机取巧的想法,并不是长久之计,而且不学习统计学,你可能分析方法用错了,都不知道。笔者最近也是在整理实验数据,所以,给大家整理了一些统计学的基本知识以及统计学在Graphpad prism里的应用,希望可以集思广益,帮到大家。
一、统计学中常见的一些定义
(一)统计学中有很多统计方法,到底应该用哪种方法,首先需要弄清楚自己的实验数据属于哪一类。
数据分为不可测量的数据和可测量的数据,比如说,我们日常填的各种调查问卷中:
1、 您的性别是?
A、女 B、男
2、 请对刚才客服服务做出评价:
A、非常满意
B、满意
C、 一般
D、不好
这一类的问题就属于不可测量的数据,也叫作分类数据,这一类数据的特点是数据之间并没有相等间隔,说到这里你可能还是不太懂,我们接着往下看这两个问题:
1、 您的年龄是?
2、您的身高是?
这一类的数据就属于可测量的数据,也称为数值数据,我们可以用尺子测量身高,以1cm为测量刻度,每一个刻度和相邻的刻度之间的间隔是相等的。所以说身高是数值数据。
再举一个例子,我们每个学生都会面对的英语四六级考试,还有雅思托福这样的考试,每一种考试需要掌握的单词量都不同,
英语四级 | 英语六级 | 托福 | 雅思 |
---|---|---|---|
4000个单词 | 6000个单词 | 9000个单词 | 没有明确规定单词量 |
但是它们之间的难度差异除了单词量不同外,还包括听力口语语法其他方面,所以它们级数之间的间隔是不相等的,也属于不可测量的数据。
(二)数值数据中的次数分布表
举例来说,母亲节,我想去商场买件连衣裙送给老妈,同一种款式的连衣裙价格不同,改选哪个?我们可以把各个服装店的连衣裙价格列个表格
价格 | 价格 | ||
---|---|---|---|
服装店1 | 700 | 服装店6 | 550 |
服装店2 | 850 | 服装店7 | 680 |
服装店3 | 600 | 服装店8 | 590 |
服装店4 | 650 | 服装店9 | 780 |
服装店5 | 500 | 服装店10 | 750 |
500-600为一类,600-700为一类,以此类推,这就是统计学中的“组”,550,650,750,850就是“组中值”。500-600价格区间内有3家店,这就是“次数”,相对次数=各组次数/数据总数。
还是上文提到的对客服的服务做出评价的问题
次数 | 比例% | |
---|---|---|
非常满意 | 28 | 70 |
满意 | 7 | 17.5 |
一般 | 4 | 10 |
不好 | 1 | 2.5 |
合计 | 40 | 100 |
(三)平均数
我们日常所说的平均数,也叫作算术平均数或均值,还有几何平均数和调和平均数。
(四)中位数
一组数据中,数值异常,大小不定,相比找出平均数,找到中位数更为妥当。所谓中位数是一组数据从小到大排列时,最中间的值。
(五)标准差
标准差是为了表现数据的离散程度,比如说两个队伍的成员比分,平均值可能相差无几,但是一个队伍的数据比较集中,另一组数据就就集中在两端居多,这时候就可以用标准差体现两组的情况。标准差最小值是0,标准差值越大,数据的离散程度越大。
(六)标准化
标准化也叫标准计分=(每一个数据–平均数)/标准差,反应的是各个数据相对于平均数的离散程度,将数据转化成更容易讨论的程度。
(七)离差
离差=标准计分*10 50
(八)机率密度函数
是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数,它的公式
我们可以先不用管它的概念和公式,只要记住两点:1、这个机率密度函数是以平均值为中心呈左右对称;2、它会受到平均值和标准差的影响
可以想象一下,一张直方图之间的组距不断缩小,当缩小到极限的时候就变成了曲线图,那么这个曲线的公式就是机率密度公式。在统计学上,我们就是以x服从平均值为***,标准差为***的正态分布。当平均值为0,标准差为1时,就是x服从标准正态分布。
Graphpad中进行统计分析
笔者也是在重新学习统计学,之后会给大家整理出简单易懂的统计学知识。接下来,我想跟大家介绍一下怎么在graphpad里分析正态分布以及多组数据比较时怎么一键式求出p value。首先我想说,我之前用的版本都5.0,这学期才换成了7.0版本,界面真的是养眼大气,极度舒适的画面感,我觉得最方便的地方就是在表达两组直方图关系的连接线条上丰富了很多,而且增加了****(p<0.0001)
不过听说已经有8.0版本了。。。。。。
我们用graphpad作图最常见的就是直方图和折线图,直方图常用来表示各组之间的差异性变化,折线图常用来表示变化趋势和线性关系。我们在分析数据的时候,首先要清楚有几组数据、影响因素有几个以及数据之间是否匹配。
一种影响因素(单因素)
1、 数据之间不匹配,比如说对照组和实验组不来自于同一个组织,互相无影响(unpaired),接下来就是看数据是否服从正态分布(我发现身边的人都是套路性的直接点击analyze,并不管数据是否符合正态分布)。
点击analyze>选择column statistics>勾选上三种检测方法,点击OK,p value>0.05就表示数据服从正态分布(因为勾选了三种方法,所以你会看到三个p value,每种方法对样本量可以有些区别,因为不是很清楚具体的差别,所以我会把三种方法都选上)
之后,你就可以回到data数据那一部分,点击analyze和t test进行数据分析,因为该组数据是unpaired,并且服从正态分布,所以如下如所示
2、 经过上面的例子,我想大家应该知道如果数据是互相匹配的,或者不服从正太分布,应该怎么做了
3、 那么如果是多组数据的话,我们就选择one-way ANOVA,同样也是要先看各组数据是否符合正态分布,举个例子来说,比如我们分析MTT法药物作用不同时间,细胞的增殖情况,肯定不是只有两组数据的。
同样是点击analyze>选择columnstatistics>勾选上三种检测方法,点击OK,p value>0.05就表示数据服从正态分布
像是这种MTT检测细胞增殖实验的多组数据,我们经常是后几组数据分别和0h的数据比较,那么我们怎么能一次性求出各组pvalue呢(我之前用的是特别笨的方法,把每组数据和0h数据按照t test 方法算,然后再添加到总的图片中)点击analyze>选择one-wayANOVA>在multiple comparisons中挑选勾选第三个,选择要比较的组,点击OK。
这样一来,各组之间的P value就一目了然了。感觉自己写的有点多了,就先分享到这里,如果大家觉得内容有帮助,我会在日后把自己学到的继续整理给大家,谢谢!