1. 正态分布组数怎么确定
正态分布标准差应该所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。
正态分布也称“常态分布”,又名高斯分布,最早由棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
2. 正态分布需要多少组数据
答:只要样本量大于30个,那么这些样本就似地服从正态分布。
3. 正态分布参数怎么确定
正态分布的分布函数:若随机变量X服从一个位置参数为μ、尺度参数为σσ的概率分布,且其概率密度函数为f(x)=12π−−√σe−(x−μ)22σ2。
4. 正态分布随机数组
一、制作直方图
将数据输入到EXCEL同一列中(这里放入A列);
计算“最大值”、“最小值”、“极差”、“分组数”、“分组组距”;
最大值:max(A:A);(=57.9)
最小值:min(A:A);(=50.6)
极差:最大值-最小值;(=7.3)
分组数:roundup(sqrt(count(A;A)),0);(=18);
分组组距:极差/分组数;(0.4)
数据分组:选一个比最小值小的一个恰当的值作为第一个组的起始坐标,然后依次加上“分组组距”,直到最后一个数据值比“最大值”大为止。
这里第一个组的起始坐标选为50.5,依次增加0.4,最后一组坐标为58.2,共计20组
统计频率:统计每个分组中所包含的数据的个数。
方法:采用FREQUENCY函数,以一列垂直数组返回一组数据的频率分布,
1、=frequency(原始数据的范围,直方图分组的数据源);
2、先选中将要统计直方图每个子组中数据数量的区域
3、再按“F2”健,进入到“编辑”状态
4、再同时按住“Ctrl”和“Shift”两个键,再按“回车Enter”键,最后三键同时松开.
制作直方图:选择频率数插入柱状图
修整柱形图:设置数据系列格式-调制无间距
二、制作正态分布图
获取正态分布概念密度:NORMDIST(作用:返回指定平均值和标准偏差的正态分布函数)
语法:
NORMDIST(x,mean,standard_dev,cumulative)
X 为需要计算其分布的数值;(以每一个分组边界值为“X”,依次往下拉)
Mean 分布的算术平均值;(Mean=AVERAGE(A:A)(数据算术平均))【这里为54.09】
Standard_dev 分布的标准偏差;(Standard_dev=STDEV.S(A:A)(数据的标准方差)【1.15】
Cumulative=false(概率密度函数)
Cumulative 为一逻辑值,指明函数的形式。如果 cumulative 为 TRUE,函数 NORMDIST 返回累计分布函数;如果为 FALSE,返回概率密度函数。
在直方图中增加正态分布曲线图:设置曲线图,选择次坐标轴。
觉得有用点个赞吧
5. 正态分布分组组距
偏态分布是与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度和偏度的计算,衡量偏态的程度。可分为正偏态和负偏态,前者曲线右侧偏长,左侧偏短;后者曲线左侧偏长,右侧偏短。
定义
偏态分布(skewness distribution)指频数分布的高峰位于一侧,尾部向另一侧延伸的分布。它分为正偏态和负偏态。偏态分布的资料有时取对数后可以转化为正态分布,反映偏态分布的集中趋势往往用中位数。
种类
偏态分布分为正偏态分布和负偏态分布。
正偏态分布是相对正态分布而言的。当用累加次数曲线法检验数据是否为正态分布时,若M>Me>Mo时,即平均数大于中数,中数又大于众数,则数据的分布是属于正偏态分布。正偏态分布的特征是曲线的最高点偏向X轴的左边,位于左半部分的曲线比正态分布的曲线更陡,而右半部分的曲线比较平缓,并且其尾线比起左半部分的曲线更长,无限延伸直到接近X轴。
负偏态分布也是相对正态分布而言的。当用累加次数曲线法检验数据是否为正态分布时,若M<Me<Mo时,即平均数小于中数,中数又小于众数,则数据的分布是属于负偏态分布。负偏态分布的特征是曲线的最高点偏向X轴的右边,位于右半部分的曲线比正态分布的曲线更陡,而左半部分的曲线比较平缓,并且其尾线比起右半部分的曲线更长,无限延伸直到接近X轴。
分组下的众数
当均值大于众数时称为正偏态;当均值小于众数时称为负偏态。
在组距分组情况下,众数的计算要考虑最大频数所在组相邻组的分布,其计算公式如下:
式中,L=最大频数所在组的下限值,d=最大频数所在组的组距,=最大频数所在组的频数与上组频数之差,=最大频数所在组的频数与下组频数之差。
在组距分组条件下,中位数的计算要考虑频数的全部排序,其计算公式如下:
式中,L=频数累积到50%()所在组的下限值,d=频数累积到50%所在组的组距,Sm=频数累积到50%所在组上组的累积频数,fm=频数累积到50%所在组的频数。
偏离系数
偏态分布(skew distribution),又称歪分布,指偏离对称的变量值的频数分布,偏离程度可用偏离系数(asymmetry coefficient)表示。其公式为:
式中代表偏度量数;式中X 为变量值,为样本均数,n为频数,“”为归并校正数,如计算过程中用组距时则须经校正,若用原始数据直接计算,可不必经“”的校正。若为0,表示对称;为正值时,曲线呈正偏态,此时曲线较长的尾部在右侧,所以也称为向右偏态;为负值时,曲线呈负偏态,此时曲线较长的尾部在左侧,所以也称为向左偏态。的绝对值越大,表示偏离越甚。检验样本偏度量数是否显著,需进行u检验。呈偏态分布的资料,有些可通过变量代换变为正态。
偏度系数反映数据分布偏移中心位置的程度,记为SK,则有
SK= (均值一中位数)/标准差.
在正态分布条件下,由于均值等于中位数,所以偏度系数等于0。当偏度系数大于0时,则为正偏态;当偏度系数小于0时,则为负偏态。
觉得有用点个赞
6. 如何求一组数据的正态分布
方法主要是两种:
第一,概率密度估计。用模式识别里常用的概率密度函数估计方法,估计出该组数据的概率密度函数p(x)。然后用这组数据的均值和方差作为参数,得出一个gauss(正态)概率密度函数f(x)。用绝对值偏差、方均根或其他标准比较f(x)和p(x),如果充分接近,则说明该组数据符合正态分布。(甚至可以利用假设检验的概念指定置信度水平等)。
第二,累积量。三阶和四阶累积量有其明确的意义,即所谓“偏度”和“峰度”。前者表明概率密度函数的对称性,如果值接近0则表示对称性好;后者表明概率密度函数(假定是单峰的)的尖锐程度,如果值接近0则表示接近正态分布(正态分布的所有二阶以上累积量值为0)。
- 相关评论
- 我要评论
-