December 20, 2021

文章标签

概率论&统计学


1. 卡方分布

1.1 定义

$k$ 个独立的标准正态分布变量的平方和,服从自由度为 $k$ 的 $\chi^2$ 分布,它是一种特殊的伽马分布

若 $k$ 个随机变量 $Z_1$、$Z_2$、……、$Z_k$ 相互独立,且服从标准正态分布 $N(0,1)$,那么随机变量 $Z$ 的平方和 $X=\sum_{i=1}^kZ_i^2$,服从自由度为 $k$ 的 $\chi$ 分布,记作 $X \thicksim \chi^2(k)$,或者 $X \thicksim \chi_k^2$。

1.2 概率密度函数

$$ f_k(x)=\frac{1}{2^\frac{k}{2}\Gamma(\frac{k}{2})}x^{\frac{k}{2}-1}e^\frac{-x}{2} $$

其中$x\ge0$,当 $x\le0$ 时 $f_k(x)=0$,$\Gamma$ 表示 Gamma 函数

1.3 累积分布函数

$$ F_k(x)=\frac{\gamma(\frac{k}{2},\frac{x}{2})}{\Gamma(\frac{k}{2})} $$

Untitled

其中 $\gamma(k,z)$ 为不完全 $\Gamma$ 函数

自由度为 $k$ 的卡方变量的平均值是 $k$,方差是 $2k$。

1.4 性质

1.4.1 期望&方差

设随机变量 $X\sim\chi_n^2$,那么 $E(X)=n, Var(X)=2n$。

1.4.2 可加性

独立卡方变量之和同样服从卡方分布。特别地,若 $X_1$,$X_2$,……,$X_n$ 分别服从自由度为 $k_1$,$k_2$,……,$k_n$ 的卡方分布,那么它们的和 $\sum_{i=1}^nX_i$ 服从自由度为 $\sum_{i=1}^nk_i$的卡方分布。

1.4.3 偏差的平方和

若 $k$ 个随机变量 $Z_1$、$Z_2$、……、$Z_k$ 相互独立,且服从标准正态分布 $N(0,1)$,那么它们的与均值之间偏差的平方和服从自由度为 $k-1$ 的卡方分布。

$$ X=\sum_{i=1}^k(Z_i-\bar{Z})^2\thicksim \chi_{k-1}^2 $$

其中均值 $\bar{Z}=\frac{1}{k}\sum_{i=1}^kZ_k$ 的平方正比于自由度为 1 的卡方分布,即 $n\bar{Z}\sim\chi_1^2$

2. 学生 t 分布

2.1 名字由来

t 分布的推导最早由德国大地测量学家弗里德里希·罗伯特·赫尔默特于1876年提出,并由德国数学家雅各布·鲁洛斯证明。

威廉·戈塞(William Sealy Gosset) 当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为 t 检验的方法来评价酒的质量。因为行业机密,酒厂不允许他发表和酿酒相关的成果,但被允许用 student 的笔名在不提及酿酒的前提下,发表了 $t$ 分布的相关研究。之后t检定以及相关理论经由罗纳德·费希尔(Ronald Aylmer Fisher)发扬光大,为了感谢戈塞的功劳,费希尔将此分布命名为学生 $t$ 分布(Student's t)。

2.2 描述

$t$ 分布在概率论及统计学中用于根据小样本来估计总体呈正态分布且标准差未知的期望值。 若总体标准差已知,或是样本数足够大(普遍认为超过30)时(依据中心极限定理渐进正态分布),则应使用正态分布来进行估计

假设$X$ 是任意一个服从 $N(\mu,\sigma^2)$ 分布的随机变量,那么随机变量 $X'=\frac{X-\mu}{\sigma}$ 服从 $\mu=0, \sigma=1$ 的标准正态分布 $N(0,1)$。这个从 $X$ 到 $X'$ 的变换也称为 u 变换

从 $X$ 中抽取样本量为 $n$ 的若干个样本,那么根据中心极限定理, $Y_n=\frac{\sum_{i=1}^n X_i-n\mu}{\sqrt{n}\sigma}$ 近似服从 $N(0,1)$,由于 $\bar{X}n=\frac{\sum{i=1}^nX_i}{n}$ 服从 $N(\mu, \frac{\sigma^2}{n})$, 相当于对 $\bar{X}$ 进行 u 变换后,$Z=\frac{\bar{X}_n-\mu}{\frac{\sigma}{\sqrt{n}}}=Y_n$ 服从标准正态分布 $N(0,1)$。

但是如果 $\mu$ 已知,但是 $\sigma^2$ 未知,用 $S_n^2=\frac{1}{n-1}\sum_{i=1}^2(X_i-\bar{X}_n)^2$ 作为估计值 代替 $\sigma^2$,得到 $Z=\frac{\bar{ X}_n-\mu}{\frac{S_n}{\sqrt{n}}}$,对于从 $\bar{X}$ 到 $Z$ 的变换这个称为 t 变换。 统计量 Z 值的分布称为 t 分布。当样本数量足够大时,$t$ 分布无限接近标准的 $N(0,1)$。

2.3 定义

设两个独立的随机变量 $X \sim N(0,1), Y\sim\chi_n^2$,那么 $T=\frac{X}{\sqrt{\frac{Y}{n}}}$ 为自由度为 $n$ 的 $t$ 变量,它的分布称为自由度为 $n$ 的 $t$ 分布,记作 $T \sim t_n$。

2.4 概率密度函数

$$ f(t)=\frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\Gamma(\frac{v}{2})}(1+\frac{t^2}{v})^{\frac{-(v+1)}{2}},-\infin < x < \infin $$

其中 $v$ 等于 $n -1$,一般称为自由度。

如果 $v$ 是偶数,$\frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\Gamma(\frac{v}{2})}=\frac{(v-1)(v-3)\cdot\cdot\cdot5\cdot3}{2\sqrt{v}(v-2)(v-4)\cdot\cdot\cdot4\cdot2}$

如果 $v$ 是奇数,$\frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\Gamma(\frac{v}{2})}=\frac{(v-1)(v-3)\cdot\cdot\cdot4\cdot2}{\pi\sqrt{v}(v-2)(v-4)\cdot\cdot\cdot5\cdot3}$

T 的概率密度函数的形状类似于期望值为0方差为1的正态分布,但更低更宽。随着自由度 $v$ 的增加,则越来越接近 $N(0,1)$。

2.5 累计密度函数

T 分布的概率累计函数,用不完全贝塔函数 $\Iota$ **表示:

$F(t)=$ $\int_{-\infin}^tf(u)du=1-\frac{1}{2}\Iota_x(t)(\frac{v}{2},\frac{1}{2})$,其中 $x(t)=\frac{v}{t^2+v}$

2.6 性质

Untitled