<aside> 👉 这里是看完书的记录

</aside>

《统计思维》


知识点记录

  1. 对于经验之谈(个人随意收集的证据,而不是通过精心设计并经过研究得到的)的反思
  2. 横截面研究:收集群体在特定时间点的数据的研究
  3. 纵贯研究:跟踪群体,随着时间推移对同一组人反复采集数据的研究
  4. 直观效应:表示发生了某种有意思的事情的度量或汇总统计量
  5. 过采样:为了避免样本量过少,而增加某个子群体代表的数量
  6. 重编码:通过对原始数据进行计算或是其他逻辑处理得到的值
  7. 代表性:如果人群中的每个成员都有同等的机会进入样本,那么这个样本就具有代表性
  8. 统计显著:若一个直观效应不太可能是由随机因素引起的,就是统计显著的
  9. 汇总统计量:通过计算将一个数据集归结到一个数字(或者是少量的几个数字),而这个数字能表示数据的某些特点

  1. 均值(mean) 和平均值(average) 的区别

    1. 样本的“均值”是根据公式 $\mu = \displaystyle \dfrac{1}{n} \sum_{i}x_i$ 计算出来的一个汇总统计量
    2. "平均值"是若干种可以用于描述样本的典型值或集中趋势的汇总统计量之一
  2. 集中趋势:样本或者总体的一种特征,直观来说就是最能代表平均水平的值

  3. 方差:用于量化分散程度的汇总统计量

    $$ \sigma^2=\dfrac{1}{n}\sum_i(x_i-\mu)^2 $$

    $x_i - \mu$ 叫做离均差,方差是离均差的方均值

    $$ \sigma^2=E[(X-\mu)^2]\\=E(X^2-2\mu X+\mu^2)\\=E(X^2)-2\mu E(x)+\mu^2\\=E(X^2)-\mu^2 $$

    计算两个独立随机变量 X,Y 的乘积 XY 的方差 $\sigma_{XY}^2$ 时,通过上面公式

    $$ \sigma_{XY}^2=E[X^2Y^2]-E(XY)^2\\=E(X^2)E(Y^2)-E(X)^2E(Y)^2\\=(\sigma_X^2+E(X)^2)(\sigma_Y^2+E(Y)^2)-E(X)^2E(Y)^2\\=\sigma_X^2*\sigma_Y^2+E(X)^2\sigma_Y^2+E(Y)^2\sigma_X^2 $$