(机器学习)统计量的知识结构安排

91百科网 43 0

前言

概率论与统计学

要理解概率论,你只需要掌握一个核心点——概率论研究不确定性(一定要记住这一点)。 通俗地说,就是利用相关信息来计算特定事件发生的概率; 统计学(推论统计)研究利用样本来推断总体,即通过部分来反映总体。 前面的文章讲的是概率论相关的知识。 本文是关于统计的。 不要感到困惑。

概率与统计

统计数据

在介绍统计之前,我们首先明确以下总体、样本和变量的含义。

举个简单的例子,以学校学生为研究对象,学校所有学生的数量就是人口,然后从中抽取100人进行研究,那么这就是样本。 变量是研究对象的特征,例如学生的年龄和身高。 每个学生的身高、年龄都不同,所以称为“可变”量。

那么什么是统计呢? 统计量是通过计算样本获得的描述性值。 它不是通过总体数据统计得出的数量。 同样,统计数据是根据样本计算的,而不是总体。 换句话说,统计量是根据样本数据计算出的统计指标。 它是样本的函数,没有参数。

同时,我们自然会想,通过计算总体得到的描述性值叫什么? 我们称它们为参数。 一般来说,我们认为总体是无限的,因此参数很难找到并且是未知的,但它们是可以确定的。 但众所周知,统计数据会发生变化。

镜框

常见统计量及其分布

常见的统计量包括样本均值、样本方差、样本标准差等。统计量的分布称为抽样分布。 这里要说明一下,统计学中的样本是随机变量,因为样本是按照一定的规则从总体中随机选择的,具有随机性和独立性。

样本平均值

样本均值是样本的平均值。

样本均值计算公式

样本方差

它用于衡量随机变量与期望的偏差。

样本方差计算公式

样本标准差

样本标准差是样本方差的算术平方根。

标准差计算公式示例

三种主要抽样分布

统计学中三个重要的抽样分布是卡方分布、t分布和F分布。

卡方分布

如果随机变量 X1...n 的 χ2 分布也称为卡方分布。

卡方分布

卡方分布的结论是其均值为n,方差为2n; 卡方分布可以帮助我们识别日常事件中的异常现象。

t 分布

若X1服从标准正态分布N(0,1),X2服从n个自由度的χ2分布,且X1和X2相互独立,则随机变量t=X1/(X2/n)1/ 2 幂服从 分布服从 n 个自由度的分布。

t 分布

t 分布既适用于大样本,也适用于小样本。

F分布

如果 X1 服从自由度为 m 的 χ2 分布,则 X2 服从自由度为 n 的 χ2 分布,并且 X1 服从分布,其中第一自由度为 m,第二自由度为 n。

F分布

总结

统计数据是关于样本的统计指标。 统计量的分布称为抽样分布。 三种常见的抽样分布是卡方分布、t 分布和 F 分布。 这三个分布可用于假设检验。 详细流程我们稍后会分享。 欢迎大家继续关注作者。

标签: 统计学 检验统计量 自由度 概率论

发表评论 (已有40611条评论)

评论列表