概率与常见的概率分布

        概率是数据分析、机器学习中最基础的知识。也是在生活中最实用的一门学科,学了很多大道理不一定能过好一生,学好概率则有一定概率会变得更好。为大概率坚持,为小概率备份。

概率与分布

    要想了解概率,首先得搞清楚概率和概率分布的问题

1.概率是什么?

    定义:概率反映的是一个事件发生可能性的大小。概率将“可能性”量化了。

2.概率分布是什么?

    定义:用于表述随机变量取值的概率规律。简而言之就是随机变量分布的规律。

3.概率与分布有什么关系?

    概率和分布之间存在密切关系。概率是分布的具体取值,而分布是对随机变量在不同取值上的概率进行建模。这两者相辅相成,共同构建了对不确定性的数学描述。

    例如:下图是一个正态分布,红点是表示在这个分布中,为x的概率,黄色的区域表示在这个分布中x属于这个黄色区域内的概率

图片

常见的概率分布

    在搞清楚概率分布之前我们还得先了解随机变量

什么是随机变量?

    定义:表示随机试验各种结果的实值单值函数。是不是很晕,比文言文还难懂,其实简单的理解:随着随机试验的结果变化而变化的变量,叫做随机变量

    比如抛骰子实验,观察点数,设抛出的点数结果为X,则X有6种可能的结果,而且每次出现的点数,都是随机性的,那么这样的变量叫做随机变量。

    随机变量分为离散型随机变量与非离散型随机变量两种。

离散型:变量的取值个数是有限的,可数的。

    例如抛硬币,有正反两种可能;抛骰子有6中可能等,都是可数的。

非离散型:变量的取值个数无限,取值范围为全体实数。非离散型中可以分为连续性(绝大部分)和混合型

例如:长度、速度、重量、体积、温度、力量等。这些都有无限个值,无法列举。

发现没有,这些变量都是一种度量

离散概率分布

伯努利分布(Bernoulli Distribution)

    伯努利分布是描述只有两个可能结果的随机试验,如硬币的正反面。

如果投一枚硬币,正面为1,反面为0。概率质量函数为 P(x=1) =p, P(x=0)=1-p

二项分布(Binomial Distribution)

    描述多次独立伯努利试验的概率。也就是说在n次试验中正好得到k次成功的概率。

如果逆向看伯努利分布就是n=1的二项分布。

那么实验了n次,有k次成功,就意味着有n-k次失败。

成功的概率为p,失败的概率为1-p

注意这里是不管实验结果的顺序的,不论是第几次成功或失败都没影响,只管最终成功和失败的次数,就很自然的使用了排列组合里面的组合C。

二项分布的概率公式则描述为

图片

多项分布(Multinomial Distribution)

    是二项分布的推广,二项分布描述的是实验结果只有两种的分布。多项分布则是描述实验结果有多种可能的分布。例如骰子的6种可能。

某随机实验如果有k个可能结果A1、A2、…、Ak,分别将他们的出现次数记为随机变量X1、X2、…、Xk,它们的概率分布分别是p1,p2,…,pk,那么在n次采样的总结果中,A1出现n1次、A2出现n2次、…、Ak出现nk次的这种事件的出现概率P有下面公式:

图片

连续概率分布

正态分布(Normal Distribution)

    又称为高斯分布(Gaussian distribution),是统计学中最常见的一种分布,正态分布曲线两头低,中间高,左右对称,因图形像大钟,因此又称为钟形曲线。

图片

正态分布的密度函数

式中μ为均值;σ是标准差;π为圆周率≈3.1415926;e为自然常数≈2.71828

这个公式中主要关注均值 μ 和标准差 σ,均值 μ 决定分布度的偏度

图片

均值 μ决定了曲线横轴的位置,μ增大曲线向横轴右移;μ减小曲线向横轴左移。

图片

标准差σ决定曲线的宽度和高度,σ越大,曲线越宽越平坦(矮胖),表明数据越分散,反之亦然。

指数分布(Exponential Distribution)
 

    用于描述独立随机时间发生的时间间隔或间隔事件的概率分布,在可靠性分析和排队论中比较常见,其中在排队论中指数分布常用于描述服务时间。例如等待公交车进站的时间间隔。

图片

指数分布密度函数

图片

指数分布图

均匀分布(Uniform Distribution)

    均匀分布在区间内所有取值的概率都相等,因为图形是一个矩形,所以也叫矩形分布,均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值。密度函数非常简单 f(x) = 1/ (b-a)

图片

泊松分布(Poisson distribution)

    主要用于估计在特定时间段或空间中某事件发生的次数,例如一小时内到达店里的人数。满足以下两个性质,则水机变量服从泊松分布

  1.  在任意两个相等长度的区间上,事件发生的概率相等。

  2. 事件在某一区间上是否发生与事件在其他区间上是否发生是相互独立的。

    图片

k表示事件在一个区间发生k次的概率;λ表示事件在一个区间发生次数的数学期望或均值;其中λ越大越接近于正态分布,当λ=50时,可以认为泊松分布呈现正态分布了。

图片

而且泊松分布是由二项分布推导而来,当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,二项分布就可以用泊松公式近似的计算。

除此之外还有一些正态分布相关的分布

例如:

卡方分布(Chi-Square Distribution)用于描述多个相互独立标准正态分布的随机变量的平方和,有几个数就是服从自由度为几的卡方分布,自由度越大,越接近于正态分布。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/452691.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024蓝桥杯每日一题(区间合并)

一、第一题:挤牛奶 解题思路:区间合并 区间合并模板题 【Python程序代码】 n int(input()) a [] for i in range(n):l,r map(int,input().split())a.append([l,r]) def cmp(x):return x[0],x[1] a.sort(keycmp) res1,res20,0 st,ed a[0][0…

SQLiteC/C++接口详细介绍之sqlite3类(五)

快速跳转文章列表:SQLite—系列文章目录 上一篇:SQLiteC/C接口详细介绍之sqlite3类(四) 下一篇:SQLiteC/C接口详细介绍之sqlite3类(六)(未发表) 14.sqlite3_busy_handle…

猫咪挑食不吃猫粮是为什么?适口性好、普口性价的主食冻干推荐

现在咱养猫人个个吧自家的小猫咪当成宝贝宠着,宠着宠着一些坏习惯就出来。 然而,这种宠爱有时也会导致猫咪养成挑食的不良习惯。那么,当猫咪拒绝吃猫粮时,我们应该如何应对呢?今天跟大家一起来分析分析猫咪挑食不吃猫…

Claude3相较于GPT4有哪些优点?

Claude 最实在的一点是即使是普通用户,也能用到上传文件、上传图片这些功能(只是用的模型比付费版性能差一些,对普通用户开放的是 Sonnet 版本,付费用户是 Opus 版本)。 但是 ChatGPT 就不行,免费的 GPT-3…

唯众物联网+地理科学交付云南师范大学地理学部教学实验室项目

近日,云南师范大学地理学部教学实验室建设项目顺利交付。该项目的成功落地,标志着物联网技术与地理科学教育的深度融合,为云南师范大学的地理教学提供了全新的教学平台与资源。该项目以物联网技术为核心,结合地理科学的特点&#…

UI 学习 二 可访问性 模式

一 颜色对比 颜色和对比度可以用来帮助用户看到和理解应用程序的内容,与正确的元素交互,并理解操作。 颜色可以帮助传达情绪、语气和关键信息。可以选择主色、辅助色和强调色来支持可用性。元素之间足够的颜色对比可以帮助低视力的用户看到和使用你的应…

Qt QDateTime类使用

一.Qt datetime 介绍 Qt中的QDateTime类是用于处理日期和时间的组合的类,它提供了丰富的功能来操作和格式化日期时间数据。以下是其主要特点和用法: 构造函数:QDateTime可以通过组合QDate(日期)和QTime(时…

微信小程序之vue按钮切换内容变化

效果图如下&#xff1b; 上代码 <template><view class"content"><view class"searchDiv"><view class"paytab"><view class"buttab" v-for"(t,index) in tabList" :key"index" clic…

基于java+springboot开发的计算机毕业设计网文论坛管理系统设计与实现【附源码】

基于javaspringboot开发的计算机毕业设计网文论坛管理系统设计与实现【附源码】 &#x1f345; 作者主页 央顺技术团队 &#x1f345; 欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; &#x1f345; 文末获取源码联系方式 &#x1f4dd; &#x1f345; 查看下方微信号获取联…

windows环境,gitbash可以连接拉取代码,但是idea没有权限

问题如图&#xff1a; 解决办法&#xff1a; 将idea中的git设为本地 即&#xff1a;将git执行文件路径指向本地 githome\cmd\git.exe而非githome\bin\git.exe

15、设计模式之迭代器模式(Iterator)

一、什么是迭代器模式 迭代器模式是一种行为型设计模式&#xff0c;它提供了一种统一的方式来访问集合对象中的元素&#xff0c;而不是暴露集合内部的表示方式。简单地说&#xff0c;就是将遍历集合的责任封装到一个单独的对象中&#xff0c;我们可以按照特定的方式访问集合中的…

一道题学会如何使用哈希表

给你一个整数数组 nums 和一个整数 k &#xff0c;请你统计并返回 该数组中和为 k 的子数组的个数 。 子数组是数组中元素的连续非空序列。 示例 1&#xff1a; 输入&#xff1a;nums [1,1,1], k 2 输出&#xff1a;2示例 2&#xff1a; 输入&#xff1a;nums [1,2,3], …

【2024.03.12】定时执行专家 V7.2 发布 - TimingExecutor V7.2 Release

目录 ▉ 软件介绍 ▉ 新版本 V7.2 下载地址 ▉ V7.2 新功能 ▼2024-03-12 V7.2 - 更新日志 ▉ V7.x 新UI设计 ▉ 软件介绍 《定时执行专家》是一款制作精良、功能强大、毫秒精度、专业级的定时任务执行软件。软件具有 25 种【任务类型】、12 种【触发器】触发方式&#x…

Python合并两张图片 | 先叠透明度再合并 (附Demo)

目录 前言正文 前言 用在深度学习可增加噪音&#xff0c;增加数据集等 推荐阅读&#xff1a;Pytorch 图像增强 实现翻转裁剪色调等 附代码&#xff08;全&#xff09; 正文 使用Pillow库来处理图像&#xff08;以下两张图来自网络&#xff09; 图一&#xff1a; 图二&…

vscode ubuntu c++运行环境配置

官方教程地址&#xff1a;Get Started with C on Linux in Visual Studio Code&#xff08;Get Started with C on Linux in Visual Studio Code&#xff09; 1、下载安装vscode Visual Studio Code - Code Editing. Redefined&#xff08;Visual Studio Code - Code Editing…

多特征变量序列预测 -TCN 预测模型

往期精彩内容&#xff1a; 时序预测&#xff1a;LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较-CSDN博客 风速预测&#xff08;一&#xff09;数据集介绍和预处理-CSDN博客 风速预测&#xff08;二&#xff09;基于Pytorch的EMD-LSTM模型-CSDN博客 风速预测&#xff…

[Java、Android面试]_01_多线程: 重要参数、状态、优雅停止线程等

本人今年参加了很多面试&#xff0c;也有幸拿到了一些大厂的offer&#xff0c;整理了众多面试资料&#xff0c;后续还会分享众多面试资料&#xff0c;感兴趣的朋友可收藏关注&#xff0c; 现分享如下&#xff1a; 文章目录 1. 线程池重要参数2. 线程池状态3. 优雅停止线程4. 线…

重载和覆盖以及隐藏有什么区别?

重载和重写以及重新定义&#xff08;隐藏&#xff09;有什么区别&#xff1f; 1.重载 重载是在一个作用域内进行的&#xff0c;多定义几个参数列表(参数类型和参数个数)不同但同名方法&#xff0c;这种叫做重载。重载通常发生在一个类内。 如: class Demo {void func() { ..…

在Linux/Ubuntu/Debian中设置字体

下载字体。 下载你喜欢的字体&#xff0c;双击并安装。 之后更新字体缓存&#xff1a; fc-cache -f -v安装 GNOME 调整。 GNOME Tweaks 是一个工具&#xff0c;允许你自定义 GNOME 桌面环境的各个方面&#xff0c;包括字体。 如果你还没有安装 GNOME Tweaks&#xff1a; …

「飞桨星河社区创作者激励计划」全新上线!丰富权益,等你领取~

为了助力更多的创作者实现在飞桨星河社区的成长&#xff0c;同时鼓励创作者们积极投入&#xff0c;记录创作者们的高光时刻&#xff0c;重磅推出**「创作者成长体系」&#xff0c;同时推出「每周精选&月度榜单」**活动&#xff0c;期待你一同加入精彩纷呈的AI学习与创作之旅…
最新文章