注册 登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

阳光宅女……

听,认真的听,带着敬意的听……我在听~~

 
 
 

日志

 
 

卡方检验  

2010-05-16 15:21:53|  分类: 积少成多 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

卡方检验又叫x 2检验,卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。Pearson Chi-Square(皮尔森卡方检验)即常用的卡方检验。

卡方检验的基本思想

  在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?

处理 发癌数 未发癌数 合计 发癌率%
甲组 52 19 71 73.24
乙组 39 3 42 92.86
合计 91 22 113 80.33

  52、19、39、3是表中最基本的数据,因此,上表资料又被称之为四格表资料。卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*91/113=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。

频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=(ad ? bc)2 * n/(a+b)(c+d)(a+c)(b+d),自由度v=(行数-1)(列数-1)

  2)应用条件:

  要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。

  2、行X列表资料的卡方检验

  行X列表资料的卡方检验用于多个率或多个构成比的比较。

  1)专用公式:

  r行c列表资料卡方检验的卡方值=卡方检验 - 宅女 - 阳光宅女……

  2)应用条件:

  要求每个格子中的理论频数T均大于5或1<T<5的格子数不超过总格子数的1/5。当有T<1或1<T<5的格子较多时,可采用并行并列、删行删列、增大样本含量的办法使其符合行X列表资料卡方检验的应用条件。而多个率的两两比较可采用行X列表分割的办法。

  3、列联表资料的卡方检验

  同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。

  1)R*C 列联表的卡方检验:

  R*C 列联表的卡方检验用于R*C列联表的相关分析,卡方值的计算和检验过程与行X列表资料的卡方检验相同。

  2)2*2列联表的卡方检验:

  2*2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验,根据卡方值计算公式的不同,可以达到不同的目的。当用一般四格表的卡方检验计算时,卡方值=(ad-bc)2n/(a+b)(c+d)(a+c)(b+d),此时用于进行配对四格表的相关分析,如考察两种检验方法的结果有无关系;当卡方值=( | b ? c | ? 1)2/(b+c)时,此时卡方检验用来进行四格表的差异检验,如考察两种检验方法的检出率有无差别。

  列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。

来自"http://wiki.mbalib.com/wiki/%E5%8D%A1%E6%96%B9%E6%A3%80%E9%AA%8C"

下面介绍下两样本率的卡方检验

在对样本率进行卡方检验时,常采用表格方式进行处理,这种表格称为R×C联表,R和C分别代表表格的行和列数。举个例子。

为了检验新的教学方法是否对提高学生的体质健康有校,选取一个实验班(50人)和一个对照班(53人),实验班采取新的教学方法,对照班采取原来的教学方法,经过一个学期后测验,两个班的体质健康成绩及格人数如下:

班级

及格人数

不及格人数

实验班

40

10

对照班

30

23

试判断新的教学方法和原来的教学方法对学生的体质健康的影响是否有显著性差异。

以下为SPSS的卡方检验操作步骤:

1. 首先在SPSS里输入数据,注意数据输入的变量设置(“是否及格”设置为数值型,并且在 label里设置1为及格,2为不及格) 

2. 对频数进行加权处理

由于在SPSS里我们输入的不是原始数据,而是汇总数据,所以需要先进行加权处理。执行“数据—>观测量加权”(data--weight cases),弹出对话框,对什么变量进行加权,选择“人数”

 

3. 交叉分析同时进行卡方检验。

执行“分析—>描述统计—>交叉表”(analyze—>descriptive sta—>crosstabs),弹出对话框,行(row)选择变量“班级”,列(col)选择变量“是否及格”。

 

再点下面的“统计”按钮,弹出对话框,见下图,选中“卡方”(chi-square),然后点“继续”,返回到交叉表对话框。

 

 

我们输入的是实际频数,卡方检验还有一个很重要的变量就是“理论频数”,这里我们也要把“理论频数”也显示出来,点下面的“单元格(cells )按钮,弹出对话框,在“计数”里选择“观察值”和“期望值”,见下图,然后点“继续”。

 

4. 查看结果。

最后点“确定”,就可得到检验结果。见下面的图。

 

 

结果分析:

1. 最上面的表格是对人数加权后得到的表格。上面一排是实际计数值(实际频数),下面一排是理论计数值(理论频数)

2. 下面的表格是卡方检验得到的结果。Value是卡方值,df为自由度,sig为检验的P值。我们看到上面有4种卡方检验的结果。

根据适应条件:四格表,n>=40,理论频数>=5,随机成组两组设计的计数资料,适宜使用Pearson 卡方检验,结果:卡方值6.468,自由度1, p=0.011<0.05,拒绝两种教学方法率相等的假设,可以认为两种教学方法对学生的体质健康及格率有显著性的差异。

 

四格表的卡方检验应该需要注意的地方:

我们上面说的表格是四格表,对其进行卡方检验的条件如下:

1. 随机样本数据;

2.卡方检验的理论频数不能太小。

两个独立样本比较可以分以下3种情况:

1.所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。也就是我们上面所选的第一个检验结果。

2.如果理论数T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验。也就是上面检验结果的第二个。

3.如果有理论数T<1或n<40,则用Fisher’s检验(Fisher’s Extract Test)。

   至于其他R×C联表的卡方检验,这里就不说了。

  评论这张
 
阅读(1307)| 评论(1)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018