December 16, 2021

标签

概率论&统计学


1. 零假设

Null hypothesis,又称虚无假设、原假设,记号:$H_0$

零假设是推断统计学中做统计检验时的一类假说,它的内容一般是希望能被证明为错误的假设,与其相对的假设是备择假设(alternative hypothesis,记作 $H_1$ 或 $H_a$, 即希望被证明是正确的另一种可能)。

1.1 第一型错误

一个统计检验的结果拒绝零假设,实际真实情况零假设成立,这种错误称为第一型错误(Type I error,弃真),即假阳性fase positive,错误地接受 $H_1$)

此时发生的概率(即零假设 $H_0$ 为真的情况下,错误地拒绝 $H_0$ 的概率)称为 $\alpha$,称为显著性水平(Significance level)。 比如,如果假设随机事件 $X$ 和随机事件 $Y$ 在显著性水平 $\alpha=0.05$ 上具有相关性,这说明二者有相关性的可能性为 95%。两组数据所代表的样本还有 5%的可能性是没有相关性的。这5%的差异是由于随机误差造成的。

通常情况下,实验结果需要证明达到了显著性水平 $\alpha=0.05$ 或者 $\alpha=0.01$,才可以说数据具备显著性特征。

引入 p值 作为检验样本观察值的最低显著性水平,p值是基于数据的检验统计量算出来的概率值。p值若与选定显著性水平(0.05或0.01)相比更小,则零假设会被否定。 在ρ= 0.01 or 0.05的情况下,若假设情况实际算得的概率小于ρ,则该比假设成立情况下 95% 或 99% 会出现的情况更极端,在该显著性差异水平下,拒绝(reject)该假设。

<aside> 💡 以上面的例子来说

想要证明两个事件没有相关性,我们提出零假设(X、Y 没有相关性),接下来的事情就是证明零假设是错误的,即尝试拒绝零假设。 拒绝零假设有两种情况, a) 正确的拒绝(即:真实数据分布以及样本的数据分布情况下,X、Y都有相关) b) 错误的拒绝(即:由于采样的问题,样本里的数据有相关性,但是真实数据没有相关性) 如果显著性水平设置为 0.05,那么 a) 的概率为 0.95 b) 的概率为 0.05

在检验样本中,设定的 p 值其实是设定了 b) 的概率上限

</aside>

当假设检验(Hypothesis test)所测得之数据之间具有显著性差异,实验的零假设就可被推翻,也就是拒绝 $H_0$,接受备择假设($H_1$);反之若数据之间不具备显著性差异,则拒绝备择假设,接受零假设。

1.2 第二型错误

一个统计检验的结果接受零假设,实际真实情况零假设不成立,这种错误称为第二型错误(Type II error,存伪),也被称为假阴性fase negative,错误地接受$H_0$)

此时发生的概率称为 $\beta$

2. 定理

1.1 大数定理