1. 卡方公式计算
卡方值是非参数检验中的一个统计量,主要用于非参数统计分析中。它的作用是检验数据的相关性。如果卡方值的显著性(即SIG.)小于0.05,说明两个变量是显著相关的。
卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
x2检验亦称卡方检验。统计学中假设检验的方式之一。x是一个希腊字母,x2可读音为卡方,所以译为卡方检验。卡方检验主要用于定类或定序变量的假设检验,在社会统计中应用非常广泛。
卡方检验的步骤一般为:
(1)建立假设,确定显著水平a与自由度df、查x2值表得到否定域的临界值;
(2)由样本资料计算x2值;
(3)将计算所得的x2值与临界x2值(负值都取绝对值)作比较,若计算值大于临界值,则否定Ⅱ0;反之,则承认Ⅱ0。
计算卡方值的公式一般可表示为:x2=∑[(fo—fc)2/fc]
式中:fo表示实际所得的次数,fc表示由假设而定的理论次数,∑为加总符号。
x2检验对于定类与定类或定类与定序变量之间的相关检验应用较多。
2. 算卡方的公式
如果总体服从正态分布N(μ,σ^2),则(n-1)S^2/σ^2服从自由度为n-1的卡方分布,从而D[(n-1)S^2/σ^2]=2(n-1),可由此间接求出D(S^2)。
连续型的随机变量取值在任意一点的概率都是0。作为推论,连续型随机变量在区间上取值的概率与这个区间是开zd区间还是闭区间无关。要注意的是,概率P{x=a}=0,但{X=a}并不是不可能事件。
扩展资料:
若式子包含有 n 个变量,其中k 个被限制的样本版统计量,则这个表达式的自由度为 n-k。比如中包含ξ1,ξ2,…,ξn这 n 个变量,其中ξ1-ξn-1相互独立,ξn为其余变量的平均值,因此自由度为 n-1。
由于随机变量X的取值 只取决于概率密度函权数的积分,所以概率密度函数在个别点上的取值并不会影响随机变量的表现。更准确来说,如果一个函数和X的概率密度函数取值不同的点只有有限个、可数无限个或者相对于整个实数轴来说测度为0(是一个零测集),那么这个函数也可以是X的概率密度函数。
3. 卡方理论值计算公式
利用其中的CHITEST和CHINV两个统计函数可以进行卡方(χ2 )检验。
Excel中的CHITEST统计函数具有返回相关性检验值的功能,利用该函数可以计算出卡方(χ2 )检验的概率值P,但未能计算出卡方值;CHIINV统计函数具有返回给定概率收尾×2分布区间点的功能,利用这一统计函数可以通过CHITEST统计函数计算出的概率值P,反过来求出卡方值。也就是说,将此两统计函数结合起来应用就可以轻松完成卡方检验的运算。该方法适用于四格表资料、行×列表资料和列联表资料的卡方检验。但是当理论频数(T )小于1,或总例数(n)小于40,或当卡方值处于临界值附近时,最好改用四格表的确切概率法,而不使用该法。
如果建立好四格表资料卡方检验通用的工作表并保存下来,以后应用此方法进行四格表资料的卡方检验时,只要先填写上a、b、e、d 4个实际频数,再分别运行CHITEST和CHIINV这两个统计函数就可以轻松地完成卡方统计检验的运算。该方法操作简便,结果直观,非常适合在基层单位推广应用
4. 卡方如何算
前提假设略去不写(请自己查书),简单的说,
t分布用于检验均值是否不同。
F分布用于检验方差是否不同。
卡方分布主要用于检验样本是否偏离了期望,例如偏离了期望的分布(拟合优度检验),期望的比例(列联表)等。
t检验和F检验只能使用连续数据(定量数据)。
卡方检验既可以使用连续数据,也可以使用离散数据(频数),也可以用于对数似然值。但计算公式不同。
三者都可以用于回归方程系数的检验。
t统计量的平方就等价于F统计量。
大样本时,t检验就等价于Z检验,其平方等效于卡方统计量(在logistic回归中有这两种表示法)。
------------------------------------
补充: 两个卡方统计量除以各自自由度后再相除,就等于F统计量。
5. 卡方公式是怎么得到的
1.设X=Y1^2+Y2^2+Y3^2+...+YN^2 其中Yn都是独立的而且服从N(0,1)
那么X服从自由度为N的卡方分布
那么D(X)=D(Y1^2)+D(Y2^2)+...+D(YN^2) 因为Yn独立
=2N 因为D(Yn^2)=E(Yn^4)-E(Yn^2)=3-1=2
其中标准正态分布的四阶期望是3 要么通过公式得出E(Y^n)=(2n)!/(n!2^n) 其中Y是标准正态随机变量 n是奇数 如果n为偶数时E(Y^n)=0 要么直接算 算法是分步积分法
或者可以直接计算卡方分布的方差 很好计算 因为自由度为N的卡方分布其实是系数为N/2,1/2的Gamma分布 而Gamma函数的性质让我们很容易计算出X的任何阶期望 具体方法是:
X的n次方期望 就是密度函数乘x^n积分 这时你把x^n放进密度函数你的积分函数里面就得到x的N/2-1+n次方也就是说系数从N/2变成了N/2+n 同样你把分式下面的Gamma函数和1/2^(N/2)提到积分外部 然后添加需要的系数(使得该式变为系数为N/2+n和1/2的Gamma分布 对1积分为一)然后除以你添加的系数 最后积分外部的所有系数就是你的x^n的期望了
2.设X服从N(0,1)Z服从自由度为N的卡方分布 X和Z独立 那么D(T)=E(T^2)-E(T)^2 其中E(T)=E(X/sqrt(Z/N))=E(X)*E(1/sqrt(Z/N))=0
所以D(T)=E(T^2)=E(X^2/(Z/N))=E(X^2)*E(N/Z)=N*E(X^2)*E(1/Z)
其中E(X^2)=1 E(1/Z)=1/(N-2) (通过密度函数计算 同第一题 卡方分布的1/2次方期望可以很容易求出)
所以D(T)=N/(N-2)
6. 卡方的公式是什么
设标准正态分布的密度函数φ(y)=[1/√(2π)]e^(-y²/2)
E(Yn^4)
=∫[-∞→+∞] y^4φ(y) dy
=[1/√(2π)]∫[-∞→+∞] y^4e^(-y²/2) dy
=(1/2)[1/√(2π)]∫[-∞→+∞] y³e^(-y²/2) d(y²)
=[1/√(2π)]∫[-∞→+∞] y³e^(-y²/2) d(y²/2)
=-[1/√(2π)]∫[-∞→+∞] y³ d(e^(-y²/2))
=-[1/√(2π)]y³e^(-y²/2)+3[1/√(2π)]∫[-∞→+∞] y²e^(-y²/2)dy |[-∞→+∞]
=0+3[1/√(2π)]∫[-∞→+∞] y²e^(-y²/2)dy
=3∫[-∞→+∞] y²φ(y)dy
=3E(Yn²)
=3
7. 卡方 公式
性质:
1) 分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数 的增大, 分布趋近于正态分布;卡方分布密度曲线下的面积都是1.
2) 分布的均值与方差可以看出,随着自由度 的增大,χ2分布向正无穷方向延伸(因为均值 越来越大),分布曲线也越来越低阔(因为方差 越来越大)。
3)不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。
4) 若 互相独立,则则是 服从 分布,自由度为 ;
5)分布的均数为自由度,即随机 E() =。
6) 分布的方差为2倍的自由度( ),记为 D( ) = 。
8. 卡方的计算公式
四格表资料检验
四格表资料的卡方检验用于进行两个率或两个构成比的比较。
1. 专用公式:
若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),
自由度v=(行数-1)(列数-1)
列联表资料检验
同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。
1. R*C 列联表的卡方检验:
R*C 列联表的卡方检验用于R*C列联表的相关分析,卡方值的计算和检验过程与行×列表资料的卡方检验相同。
2. 2*2列联表的卡方检验:
2*2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验,根据卡方值计算公式的不同,可以达到不同的目的。当用一般四格表的卡方检验计算时,卡方值=n(ad-bc)^2/[(a+b)(c+d)(a+c)(b+d)],此时用于进行配对四格表的相关分析。
如考察两种检验方法的结果有无关系;当卡方值=(|b-c|-1)2/(b+c)时,此时卡方检验用来进行四格表的差异检验,如考察两种检验方法的检出率有无差别。
列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合,偏差越小,卡方值就越小,越趋于符合,若量值完全相等时,卡方值就为0,表明理论值完全符合。
行×列表资料检验
行×列表资料的卡方检验用于多个率或多个构成比的比较。
1. 专用公式:
r行c列表资料卡方检验的卡方值=n[(A11/n1n1+A12/n1n2+...+Arc/nrnc)-1]
2. 应用条件:
要求每个格子中的理论频数T均大于5或1<T<5的格子数不超过总格子数的1/5。当有T<1或1<T<5的格子较多时,可采用并行并列、删行删列、增大样本含量的办法使其符合行×列表资料卡方检验的应用条件。而多个率的两两比较可采用行X列表分割的办法。
列联表资料检验
同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。
1. R*C 列联表的卡方检验:
R*C 列联表的卡方检验用于R*C列联表的相关分析,卡方值的计算和检验过程与行×列表资料的卡方检验相同。
2. 2*2列联表的卡方检验:
2*2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验,根据卡方值计算公式的不同,可以达到不同的目的。
当用一般四格表的卡方检验计算时,卡方值=n(ad-bc)^2/[(a+b)(c+d)(a+c)(b+d)],此时用于进行配对四格表的相关分析。
如考察两种检验方法的结果有无关系;当卡方值=(|b-c|-1)2/(b+c)时,此时卡方检验用来进行四格表的差异检验,如考察两种检验方法的检出率有无差别。
列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合,偏差越小,卡方值就越小,越趋于符合,若量值完全相等时,卡方值就为0,表明理论值完全符合。
为什么从正态总体中抽取出的样本的方差服从χ2分布
在抽样分布理论一节里讲到,从正态总体进行一次抽样就相当于独立同分布的 n 个正态随机变量ξ1,ξ2,…,ξn的一次取值。
将 n 个随机变量针对总体均值与方差进行标准化得(i=1,…,n),显然每个都是服从标准正态分布的,因此按照χ2分布的定义,应该服从参数为 n 的χ2分布。
如果将中的总体均值 μ 用样本平均数 ξ 代替,即得,它是否也服从χ2分布呢?理论上可以证明,它是服从χ2分布的,但是参数不是 n 而是 n-1 了,究其原因在于它是 n-1 个独立同分布于标准正态分布的随机变量的平方和
扩展资料
卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的。
如第一行第一列的理论频数为71*(91/113)=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。
9. 卡方公式是什么
卡方公式是:
H0:总体X的分布函数为F(x).
如果总体分布为离散型,则假设具体为
H0:总体X的分布律为P{X=xi}=pi, i=1,2,...
当H0为真时,n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近,当H0不真时,则fi/n与pi相差很大。在0假设成立的情况下服从自由度为k-1的卡方分布。
扩展资料
卡方检验统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
行×列表资料的卡方检验用于多个率或多个构成比的比较。
1、专用公式:
r行c列表资料卡方检验的卡方值=n[(A11/n1n1+A12/n1n2+...+Arc/nrnc)-1]
2、应用条件:
要求每个格子中的理论频数T均大于5或1<T<5的格子数不超过总格子数的1/5。当有T<1或1<T<5的格子较多时,可采用并行并列、删行删列、增大样本含量的办法使其符合行×列表资料卡方检验的应用条件。而多个率的两两比较可采用行X列表分割的办法。
- 相关评论
- 我要评论
-