【统计推断】-01 抽样原理之(四):中心极限定律

文章目录

  • 一、说明
  • 二、样本均值的抽样分布
  • 三、两个重要公理
  • 四、中心极限定理
    • 4.1 定义
    • 4.2 中心极限定理的特点
    • 4.3 中心极限定理的条件
  • 五、一个举例
    • 5.1 一个连续分布示例
    • 5.2 样本容量变化的对比
  • 六、结论

关键词:
   Central Limit Theorem
   Law of Large Numbers

一、说明

   大数定律和中心极限定律无疑是抽样理论最重要的理论支持。注意这两个定律是以公理形式出现,因此不要试图证明。有种种案例可以强化对这两个公理的理解。本篇将叙述两个公理意义,合理性,约束条件。从直观上加强对这个理论的理解。

二、样本均值的抽样分布

   为了了解如何使用抽样误差,我们将了解一种新的理论分布,称为抽样分布。就像我们可以收集许多单独的分数并将它们放在一起形成具有中心和分布的分布一样,如果我们要采取许多大小相同的样本,并计算每个样本的平均值,我们可以将这些手段放在一起形成一个分布。
   直观上,这种新分布被称为样本均值分布。这是我们所说的抽样分布的一个例子,我们可以由一组任何统计量组成,例如均值、检验统计量或相关系数(后两者将在第 2 单元和第 3 单元中详细介绍)。出于我们的目的,了解样本均值的分布就足以了解所有其他抽样分布如何工作以支持和告知我们的推理分析,因此从现在开始这两个术语将互换使用。让我们更深入地了解它的一些特征。

   样本均值的抽样分布可以通过其形状、中心和分布来描述,就像我们使用过的任何其他分布一样。我们的采样分布的形状是正态的:钟形曲线,有一个峰和两个在任一方向对称延伸的尾部,就像我们在前面的章节中看到的那样。样本均值的抽样分布中心(即均值本身或平均值)是真实总体均值,μ。有时这会写成 μ x ˉ \mu_{\bar{x}} μxˉ 将其表示为样本均值的平均值。抽样分布的分布称为标准误差,抽样误差的量化,表示为 μ x ˉ \mu_{\bar{x}} μxˉ。标准误差的公式为:
σ x ˉ = σ n \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} σxˉ=n σ
   请注意,样本大小在此等式中。如上所述,抽样分布是指特定大小的样本。也就是说,所有样本均值必须根据相同大小的样本计算得出n
, 这样的n= 10,n= 30,或n= 100。此样本量是指每个样本中有多少人或观察值,而不是用于形成抽样分布的样本数。这是因为抽样分布是一种理论分布,而不是我们实际计算或观察的分布。fig 6.2. 1以图形形式显示此处所述的原则。
在这里插入图片描述
fig 6.2. 1 :样本均值的抽样分布

三、两个重要公理

   我们刚刚了解到抽样分布是理论上的:我们从未真正看到过它。如果这是真的,那么我们怎么知道它有效呢?我们如何使用我们看不到的东西?答案在于两个非常重要的数学事实:中心极限定理和大数定律。我们不会深入研究这些陈述是如何得出的,但了解它们是什么以及它们的含义对于理解推论统计为何有效以及我们如何根据从单个样本获得的信息得出关于总体的结论非常重要。

四、中心极限定理

4.1 定义

   中心极限定理指出,如果从总体中抽取足够大的样本,则即使总体不是正态分布,样本均值也将呈正态分布。
   总体遵循泊松分布(左图)。如果我们从总体中抽取 10,000 个样本,每个样本大小为 50,则样本均值遵循正态分布,正如中心极限定理(右图)所预测的那样。
在这里插入图片描述

   中心极限定理指出:

   定理3.1 对于单一尺寸n的抽样,从具有给定均值的总体中抽取μ和方差 σ 2 \sigma^2 σ2,样本均值的抽样分布将有一个均值 μ x ˉ = μ \mu_{\bar{x}}=\mu μxˉ=μ和方差 σ x ˉ 2 = σ 2 n {\sigma^2_{\bar{x}}}=\frac{\sigma^2}{n} σxˉ2=nσ2。随n的增加,该分布将接近正态分布,如下所示。

   由此,我们能够找到抽样分布的标准差,即标准误差。正如您所看到的,就像任何其他标准差一样,标准误差只是分布方差的平方根。

   中心极限定理的最后一句指出,随着用于创建抽样分布的样本量的增加,抽样分布将呈正态分布。这意味着更大的样本将创建更正态的分布,因此我们能够更好地使用我们为正态分布和概率开发的技术。那么多大才算足够大呢?一般来说,如果两个特征之一为真,则抽样分布将是正态分布:

  • 从中抽取样本的母体呈正态分布(此时无论样本容量是否足够大)
  • 样本容量等于或大于 30。
       第二个标准非常重要,因为它使我们能够使用为正态分布开发的方法,即使真实的总体分布是倾斜的。

4.2 中心极限定理的特点

   中心极限定理依赖于抽样分布的概念,它是从总体中抽取的大量样本的统计量的概率分布。
   想象一个实验可以帮助您理解抽样分布:

  • 假设您从总体中抽取一个随机样本并计算该样本的统计数据,例如平均值。
  • 现在,您抽取另一个相同大小的随机样本,并再次计算平均值。
  • 您多次重复此过程,最终会得到大量均值,每个样本一个。
    样本均值的分布是抽样分布的一个示例。

   中心极限定理表明,只要样本量足够大,均值的抽样分布将始终呈正态分布。无论总体是否服从正态分布、泊松分布、二项分布或任何其他分布,均值的抽样分布都将是正态分布。

   正态分布是一种对称的钟形分布,离分布中心越远,观测值就越少。

4.3 中心极限定理的条件

中心极限定理指出,在以下条件下,均值的抽样分布将始终遵循正态分布:

  • 样本量足够大。如果样本量n ≥ 30,则通常满足此条件。
  • 样本是独立同分布 (iid) 随机变量。如果抽样是随机的,则通常会满足此条件。
  • 总体分布具有有限方差。中心极限定理不适用于具有无限方差的分布,例如柯西分布。大多数分布具有有限方差。

五、一个举例

5.1 一个连续分布示例

假设您对美国人们的退休年龄感兴趣。人口都是退休的美国人,人口分布可能如下所示:
在这里插入图片描述
   退休年龄遵循左偏分布。大多数人在平均退休年龄 65 岁的大约五年内退休。然而,存在一个“长尾”,即退休年龄更早的人,例如 50 岁甚至 40 岁。人口的标准差为 6 年。

   想象一下,您从总体中抽取了一小部分样本。您随机选择五名退休人员并询问他们退休的年龄。

5.2 样本容量变化的对比

例子:中心极限定理;n = 5的样本
68 73 70 62 63

样本平均值是总体平均值的估计值。这可能不是一个非常精确的估计,因为样本量只有 5 个。

例子:中心极限定理;小样本的平均值
mean = (68 + 73 + 70 + 62 + 63) / 5 = 67.2 岁

假设您重复此过程 10 次,抽取 5 名退休人员的样本,并计算每个样本的平均值。这是均值的抽样分布。

例子:中心极限定理; 10 个小样本的平均值>
60.8 57.8 62.2 68.6 67.4 67.8 68.3 65.6 66.5 62.1

如果多次重复该过程,样本均值的直方图将如下所示:
在这里插入图片描述
虽然这种抽样分布比总体分布更正态分布,但它仍然有一点左偏。

另请注意,抽样分布的分布小于总体的分布。

中心极限定理表明,当样本量足够大时,均值的抽样分布将始终遵循正态分布。这种平均值的抽样分布不是正态分布,因为它的样本量不够大。

现在,想象一下您抽取了大量人口样本。您随机选择 50 名退休人员并询问他们退休年龄。

例子:中心极限定理;n = 50的样本
73 49 62 68 72 71 65 60 69 61
62 75 66 63 66 68 76 68 54 74
68 60 72 63 57 64 65 59 72 52
52 72 69 62 68 64 60 65 53 69
59 68 67 71 69 70 52 62 64 68
样本平均值是总体平均值的估计值。这是一个精确的估计,因为样本量很大。

例子:中心极限定理;大样本的平均值
mean = 64.8 岁

同样,您可以多次重复此过程,抽取 50 名退休人员的样本,并计算每个样本的平均值:
在这里插入图片描述
在直方图中,您可以看到此采样分布呈正态分布,正如中心极限定理所预测的那样。

该抽样分布的标准差为0.85年,小于小样本抽样分布的散布,也远小于总体的散布。如果进一步增加样本量,差异会进一步减小。

我们可以用中心极限定理公式来描述抽样分布:

X ˉ ∼ N ( μ , σ n ) \bar{X} \sim N (\mu,\dfrac{\sigma}{\sqrt{n}}) XˉN(μ,n σ)
µ = 65 µ = 65 µ=65
σ = 6 σ = 6 σ=6
N = 50 N= 50 N=50
X ˉ ∼ N ( 65 , 6 50 ) \bar{X} \sim N (65,\dfrac{6}{\sqrt{50}}) XˉN(65,50 6)
X ˉ ∼ N ( 65 , 0.85 ) \bar{X} \sim N (65,0.85) XˉN(65,0.85)

六、结论

本篇在中心极限定理上已经消耗了足够的篇幅,我们将在续篇中阐述大数定律和以及切比雪夫不等式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/585551.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

linux部署java1.8(java17)

两种方式: 方式一 1.输入查找命令: yum -y list java*2.输入安装命令: yum install -y java-1.8.0-openjdk.x86_643.测试是否已经安装: java -version方式二: 点击链接进入官网:https://www.oracle.com/…

mysql-sql练习-5-行列互转

目录 成绩单 简单互转 需求 多行转多列 分组 判断 聚合 理解 分组 合并 逆向需求 多列转多行 输出 合并 abc 去重 合并 拆分 需求 建表 多行转多列 逆向需求 多列转多行 拆分 按长度 拆分 按个数 成绩单 简单互转 需求 多行转多列 分组 判断 聚合 with tmp as(--…

3.电源模块趋旺盛,铁路最需可靠性

电源模块趋旺盛,铁路最需可靠性 电源设计需要很高的专业技能。越来越多的电子设备制造商开始采用电源模块来加快设计周期。通信、铁路、电力和军工领域,对电源模块需求越来越旺盛。 通信网络基建设备市场潜力巨大。应市场要求,现代的通信系…

自动化工具:推广神器,精准获客新策略

在当今这个信息爆炸的时代,推广和获客对于企业的生存和发展至关重要。然而,传统的推广方式不仅耗时耗力,而且效果往往难以精准把控。此时,自动化工具的出现无疑为市场推广带来了新的生机。本文将以客观公正的态度探讨如何利用自动…

[软件工具]批量根据文件名查找PDF文件复制到指定的地方,如何批量查找文件复制,多个文件一起查找复制

多个文件目录下有多个PDF, 如何根据文件名一个清单,一次性查找多个PDF复制保存 如图所示下面有7个文件夹,每个文件夹里面有几百上千PDF文件 如何从上千个PDF文件中一次性快速找到我们要的文件呢 ? 我们需要找到文件名是这样的PDF&#xff0…

oracle pl/sql 如何让sql windows 显示行号

oracle pl/sql 如何让sql windows 显示行号 下载最新版的pl/sql第一步,在preferences中对sql Windows进行设置,如下所示第二步,在preferences中对User interface进行设置,如下所示结果如下 其实很简单 下载最新版的pl/sql 官方下…

【LangChain系列 12】Prompt模版——序列化

本文速读: PromptTemplate FewShotPromptTemplate 通常prompt以文件形式存储比python代码更好,一方面可以更容易共享、存储。本文将介绍在LangChain中如何对prompt以不同的方式序列化。 一般来说,对于序列化有以下两个设计原则&#xff1a…

深度学习系列64:数字人wav2lip详解

1. 整体流程 第一步,加载视频/图片和音频/tts。用melspectrogram将wav文件拆分成mel_chunks。 第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img…

74、堆-数组中的第K个最大元素

思路&#xff1a; 直接排序是可以的&#xff0c;但是时间复杂度不符合。可以使用优先队列&#xff0c;代码如下&#xff1a; class Solution {public int findKthLargest(int[] nums, int k) {if (numsnull||nums.length0||k<0||k>nums.length){return Integer.MAX_VAL…

神之浩劫2测试资格100%获取教程 测试资格获取方法教程

《神之浩劫》是一款基于Unreal 3&#xff08;虚幻3&#xff09;游戏引擎开发的3D团队竞技游戏&#xff0c;由美国Hi-Rez工作室开发、腾讯全球代理。2013年10月31日&#xff0c;游戏开启国服首测&#xff0c;并于2014年3月25日在美国公测。2018年1月20日&#xff0c;国服并入全球…

shell脚本-监控系统内存和磁盘容量

监控内存和磁盘容量除了可以使用zabbix监控工具来监控&#xff0c;还可以通过编写Shell脚本来监控。 #! /bin/bash #此脚本用于监控内存和磁盘容量&#xff0c;内存小于500MB且磁盘容量小于1000MB时报警#提取根分区剩余空间 disk_size$(df / | awk /\//{print $4})#提取内存剩…

Redis(七) zset有序集合类型

文章目录 前言命令ZADDZCARDZCOUNTZRANGEZREVRANGEZRANGEBYSCOREZPOPMAXZPOPMIN两个阻塞版本的POP命令BZPOPMAX BZPOPMINZRANKZREVRANKZSCOREZREMZREMRANGEBYRANKZREMRANGEBYSCOREZINCRBY集合间操作ZINTERSTOREZUNIONSTORE 命令小结 内部编码使用场景 前言 对于有序集合这个名…

Java核心技术.卷I-上-笔记

目录 面向对象程序设计 使用命令行工具简单的编译源码 数据类型 StringBuilder 数组 对象与类 理解方法调用 继承 代理 异常 断言 日志 面向对象程序设计 面向对象的程序是由对象组成的&#xff0c;每个对象包含对用户公开的特定功能部分和隐藏的实现部分从根本上…

高校宿舍管理

在高等教育的迅猛发展浪潮中&#xff0c;大学校园正经历着前所未有的变革。随着招生规模的不断扩大&#xff0c;学生宿舍管理工作变得日益繁重和复杂。传统的管理方法&#xff0c;如使用Word和Excel进行数据记录和整理&#xff0c;已经无法满足现代高效、精准的管理需求。此外&…

关于几个水表术语的理解

GB/T778.1-2018《饮用冷水水表和热水水表 第 1 部分&#xff1a;量值要求和技术要求》、JJG162-2019《饮 用冷水水表检定规程》和 JJF1777-2019《饮用冷 水水表型式评价大纲》不仅规范了水表行业的专业名词解释&#xff0c;而且给出了影响水表性能的主要因素的定义。本文从影响…

Mellanox网卡打流命令ib_write_bw执行遇到Couldn‘t listen to port 18515原因与解决办法?

要点 要点&#xff1a; ib默认使用18515命令 相关命令&#xff1a; netstat -tuln | grep 18515 ib_write_bw --help |grep port# server ib_write_bw --ib-devmlx5_1 --port 88990 # client ib_write_bw --ib-devmlx5_0 1.1.1.1 --port88990现象&#xff1a; 根因&#xf…

Spring Cloud Feign

序言 本文给大家介绍一下 Spring Cloud Feign 的基础概念以及使用方式。 一、远程调用 在传统的单体系统中&#xff0c;我们通常是客户端去请求服务端的接口。但是在分布式的系统中&#xff0c;常常需要一个服务去调用另外一个服务的接口。在服务端如何去调用另外一个服务端…

docker compose mysql主从复制及orchestrator高可用使用

1.orchestrator 功能演示&#xff1a; 1.1 多级级联&#xff1a; 1.2 主从切换&#xff1a; 切换成功后&#xff0c;原来的主库是红色的&#xff0c;需要在主库的配置页面点击“start replication ”&#xff0c;重新连接上新的主库。 1.3 主从故障&#xff0c;从库自动切换新…

pyqt字体选择器

pyqt字体选择器 pyqt字体选择器效果代码 pyqt字体选择器 pyqt中QFontDialog 类是一个预定义的对话框&#xff0c;允许用户选择一个字体并设置其样式、大小等属性。 效果 代码 from PyQt5.QtWidgets import QApplication, QWidget, QVBoxLayout, QLabel, QPushButton, QFontD…

信息收集。

信息收集 接着使用cs进行信息收集 发现域内管理员账号。 然后查看pc信息&#xff0c; 查看进程。 发现域为god.org 尝试定位域控。 提权 使用cs的功能进行权限提权 成功获取管理员权限。 hash抓取 接着抓hash 成功抓到管理员账号、密码。 接着进行横向传递 成功获取AD和…