数据分析的常见问题合集之一

统计分析 2019. 12. 11. 17:22

本文针对数据分析方面一些常见的问题,进行了归纳和解答。

* 如觉得本文信息有所帮助,请帮忙点击文中广告支持我们,非常感谢

 

 

问题列表

Q1:自由度是什么?怎样确定?

Q2:X方检验中自由度问题

Q3:如何判定结果具有真实的显著性

Q4:什么是第一类错误和第二类错误

Q5:假设检验的内涵及基本步骤

Q6:所有的检验统计都是正态分布的吗?

Q7:卡方检验的结果,值是越大越好,还是越小越好?

Q8:回归分析和相关分析的联系和区别

 

Q1:自由度是什么?怎样确定?

 

定义:构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目。用df表示。

自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制——要计算标准差(小s)就必须先知道样本平均数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。至于有的自由度是n-2什么的,都是同样道理。

在计算作为估计量的统计量时,引进一个统计量就会失去一个自由度。

通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。

 

Q2:X方检验中自由度问题

 

在正态分布检验中,这里的M(三个统计量)为N(总数) 平均数和标准差。

因为我们在做正态检验时,要使用到平均数和标准差以确定该正态分布形态,此外,要计算出各个区间的理论次数,我们还需要使用到N。

所以在正态分布检验中,自由度为K-3。(这一条比较特别,要记住!)

在总体分布的配合度检验中,自由度为K-1。

在交叉表的独立性检验和同质性检验中,自由度为(r-1)×(c-1)。

 

 

Q3:如何判定结果具有真实的显著性

 

韩国绝大多数情况都是以 p 值是否小于 0.05 作为基本规则,只要 p 值小于 0.05,我们就认为所验证的假设成立,又或是比较的集团之间有显著差别。

 

Q4:什么是第一类错误和第二类错误

 

在假设检验中,由于随机性我们可能在决策上犯两类错误。

第一类是假设正确,但我们拒绝了假设,这类错误是“弃真”错误,被称为第一类错误;

第二类是假设不正确,但我们没拒绝假设,这类错误是“取伪”错误,被称为第二类错误。

 

Q5:假设检验的内涵及基本步骤

 

通常来说,发生第二类错误的几率会小很多,因为只要作者根据专业知识的理论来导出假设,再加上指导教授把关,并不容易发生错误。

 

一般来说,在样本确定的情况下,任何决策无法同时避免两类错误的发生,即在避免第一类错误发生机率的同时,会增大第二类错误发生的机率;或者在避免第二类错误发生机率的同时,会增大第一类错误发生的机率。人们往往根据需要选择对那类错误进行控制,以减少发生这类错误的机率。大多数情况下,人们会控制第一类错误发生的概率。     

发生第一类错误的概率被称作显著性水平,一般用α表示,在进行假设检验时,是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。在这个前提下,假设检验按下列步骤进行:

 

1) 确定假设;

2) 进行抽样,得到一定的数据;

3) 根据假设条件下,构造检验统计量,并根据抽样得到的数据计算检验统计量在这次抽样中的具体值;

4) 依据所构造的检验统计量的抽样分布,和给定的显著性水平,确定拒绝域及其临界值;

5) 比较这次抽样中检验统计量的值与临界值的大小,如果检验统计量的值在拒绝域内,则拒绝假设;

 

到这一步,假设检验已经基本完成,但是由于检验是利用事先给定显著性水平的方法来控制犯错概率的,所以对于两个数据比较相近的假设检验,我们无法知道那一个假设更容易犯错,即我们通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率(即给定的显著性水平),而无法知道具体在多大概率水平上犯错。

 

计算 P值有效的解决了这个问题,P值其实就是按照抽样分布计算的一个概率值,这个值是根据检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小就可以知道是否拒绝假设,显然这就代替了比较检验统计量的值与临界值的大小的方法。而且通过这种方法,我们还可以知道在p值小于α的情况下犯第一类错误的实际概率是多少,p=0.03<α=0.05,那么拒绝假设,这一决策可能犯错的概率是0.03。

需要指出的是,如果P>α,那么假设不被拒绝,在这种情况下,第一类错误并不会发生。

 

Q6:所有的检验统计都是正态分布的吗?

 

并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验 F检验或卡方检验。

这些检验一般都要求:所分析变量在总体中呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。

 

当人们用在正态分布基础上建立的检验分析非正态分布变量的数据时问题就产生了。

这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下 不灵活。

另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正态,即使所研究的变量分布并不呈正态。

 

Q7:卡方检验的结果,值是越大越好,还是越小越好?

 

与其它检验一样,所计算出的统计量越大,在分布中越接近分布的尾端,所对应的概率值越小。

如果试验设计合理数据正确,显著或不显著都是客观反映。没有什么好与不好。

 

 

Q8:回归分析和相关分析的联系和区别

 

相关分析(Correlation):The relationship btw two variables. --- A dose not define or determine B.

 

回归分析(Regression):Dependant variable is defined and can be forecasted by independent variable.

 

相关更倾向于解释两两之间的关系,但是一般都是指线形关系。因此在做相关指数的时候要特别注意怎么解释数值,特别建议先做出图像观察。

 

回归更有用自变量解释因变量的意思,是因果关系,并且可以是线性或者非线形关系。

 

任何事物的存在都不是孤立的,而是相互联系、相互制约的。身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析。

相关关系只能知道他们有联系,但是讨论不了是否是因果关系。

 

回归分析则是探索因果关系的。虽然实际上最后我们并不是完全依据统计的结果来判断因果性,只有在统计结果和理论及现实比较吻合的基础上我们才肯定这种因果关系。

 

回归分析是处理两个及两个以上变量间线性依存关系的统计方法。此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。

 

数据分析

毕业论文的数据分析搞不定吗?数据分析、结果说明、一对一讲解一站式服务

  • SPSS, AMOS软件的数据分析

  • 毕业论文,期末课题数据分析

  • 论文咨询

相关联推荐

► 如何画调节分析图表

► K-Means聚类分析

► 显著性(p)到底是什么?

► 方差分析(ANOVA)全总结

► 理解 t 检验与 F 检验的区别

posted by Troy C.