（机器学习）统计量的知识结构安排

91百科网 2024年05月09日 13:08:43 43 0

前言

要理解概率论，你只需要掌握一个核心点——概率论研究不确定性（一定要记住这一点）。通俗地说，就是利用相关信息来计算特定事件发生的概率；统计学（推论统计）研究利用样本来推断总体，即通过部分来反映总体。前面的文章讲的是概率论相关的知识。本文是关于统计的。不要感到困惑。

概率与统计

统计数据

在介绍统计之前，我们首先明确以下总体、样本和变量的含义。

举个简单的例子，以学校学生为研究对象，学校所有学生的数量就是人口，然后从中抽取100人进行研究，那么这就是样本。变量是研究对象的特征，例如学生的年龄和身高。每个学生的身高、年龄都不同，所以称为“可变”量。

那么什么是统计呢？统计量是通过计算样本获得的描述性值。它不是通过总体数据统计得出的数量。同样，统计数据是根据样本计算的，而不是总体。换句话说，统计量是根据样本数据计算出的统计指标。它是样本的函数，没有参数。

同时，我们自然会想，通过计算总体得到的描述性值叫什么？我们称它们为参数。一般来说，我们认为总体是无限的，因此参数很难找到并且是未知的，但它们是可以确定的。但众所周知，统计数据会发生变化。

镜框

常见统计量及其分布

常见的统计量包括样本均值、样本方差、样本标准差等。统计量的分布称为抽样分布。这里要说明一下，统计学中的样本是随机变量，因为样本是按照一定的规则从总体中随机选择的，具有随机性和独立性。

样本平均值

样本均值是样本的平均值。

样本均值计算公式

样本方差

它用于衡量随机变量与期望的偏差。

样本方差计算公式

样本标准差

样本标准差是样本方差的算术平方根。

标准差计算公式示例

三种主要抽样分布

统计学中三个重要的抽样分布是卡方分布、t分布和F分布。

卡方分布

如果随机变量 X1...n 的 χ2 分布也称为卡方分布。

卡方分布

卡方分布的结论是其均值为n，方差为2n；卡方分布可以帮助我们识别日常事件中的异常现象。

t 分布

若X1服从标准正态分布N(0,1)，X2服从n个自由度的χ2分布，且X1和X2相互独立，则随机变量t=X1/(X2/n)1/ 2 幂服从分布服从 n 个自由度的分布。

t 分布

t 分布既适用于大样本，也适用于小样本。

F分布

如果 X1 服从自由度为 m 的 χ2 分布，则 X2 服从自由度为 n 的 χ2 分布，并且 X1 服从分布，其中第一自由度为 m，第二自由度为 n。

F分布

总结

统计数据是关于样本的统计指标。统计量的分布称为抽样分布。三种常见的抽样分布是卡方分布、t 分布和 F 分布。这三个分布可用于假设检验。详细流程我们稍后会分享。欢迎大家继续关注作者。

本文地址： http://91mhw.com/613975.html

文章来源： 91百科网