python 实现大语言模型中的概率论:两人轮流出手对决时取胜概率的推导

假设你跟朋友通过打赌投篮来打赌一万块。你们找到一个篮球框,然后约定轮流投篮,谁先投进谁赢。假设你投进的概率是 p,也就是投不进的概率是 1-p,你对手投进的概率是 q,投不进的概率是 1-q,如果由你先投,那么你取胜的概率是多少。

在上面问题中我们把事情进行了理想化假设。也就是你和对手的准度不会变,不管你们投了 10 次还是 100 次,你们状态都保持一致,投入的概率永远不变。这个问题涉及到概率论中一个大类问题,那就是成功率为 p 的情况下,我们需要执行多少次试验才能获得第一次成功。要解决这个问题,我们首先需要了解几何不等式:

假设 |r| < 1,那么有:
请添加图片描述
假设你在第 n 次投篮时,你投进获得了胜利,我们看基于 n 如何推导出取胜的规律来。如果 n=1,这意味着你第一次投就成功,对应的概率就是 p,如果 n=2,那意味着你投第一次不中概率为 1-p,然后对手投第一次同样不中,概率为 1-q,然后你投第二次结果中了,概率为 p,此时对应的概率就是(1-p)(1-q)p,如果我们这里用字符 r 替代(1-p)(1-q),那么对应概率就简化为 rp,如果 n=3,那说明你前两次不中,概率就是(1-p) ^ 2,对方前两次也不中,概率为(1-q) ^ 2,然后你第三次中了,于是概率就是(1-p) ^ 2 * (1-q) ^ 2 * p ,由于我们使用 r 代替(1-p)(1-q),因此(1-p) ^ 2 * (1-q) ^ 2 就可以简化为 r ^ 2,于是概率就是 r ^2 * p,由此我们就能推而广之,那就是当你在第 n 次投篮时成功对应的概率就是 r ^( n-1) * p。

由此我们就能推断,你在竞争中获胜的概率,那就是头一次就赢的概率加上投两次就赢的概率…,加上投 n 次就赢的概率,于是有:

请添加图片描述
注意这里的 r 是替代(1-p)(1-1)。于是我们用前面提供的公式就可以把上面式子简化为:

∑ n = 0 ∞ r n p = p ∑ n = 0 ∞ r n = p 1 − r \sum_{n=0}^{\infin}r^{n}p=p\sum_{n=0}^{\infin}r^{n} =\frac{p}{1-r} n=0rnp=pn=0rn=1rp请添加图片描述
事实上我们可以推导出上面的结论而不需要前面的几何级数公式。是想你第一次投篮就赢的概率是 p,如果你第一次不进,那么你要赢得比赛就需要对手第一次也不能进,此时你赢得概率没有变,就如同第一轮比赛没有发生过一样。如果使用 x 表示你赢的概率,那么 x 就等于你第一次投进的概率,加上你第一次不进,对方也第一次不进,然后乘以你赢的概率,也就是 x = p+(1-p)*(1-q)*x,如果我们把 x 解出来,那么就要 x = p / (1-r),可以看到我们第二种推导逻辑要比第一种简单和巧妙的多。

下面我们来点高级货,搞点微积分玩玩,这里的推导在后面的章节中会有大用处。有过高数学习经验的同学或许都了解过一个概念叫分部积分,要计算一个复杂的积分,我们需要把积分内的变量做各种代换才能计算出结果,我们看个例子,假设要计算如下积分,也就是公式(1):
请添加图片描述
我们需要做如下替换:
请添加图片描述
然后使用微分计算就有:请添加图片描述
根据分部积分规则:
请添加图片描述
把上面步骤结合起来就有也就是公式(2):

请添加图片描述
由于:

请添加图片描述
由此公式(2)就转换为下面的公式(3):

请添加图片描述
同理我们再次实现分部积分处理公式(3)右边部分的积分,先做如下替换:
请添加图片描述
于是根据微分计算规则就有:

请添加图片描述
由此公式(3)就转换为下面的公式(4):
请添加图片描述
由于:

请添加图片描述
把上面推导代入公式(4),我们得到下面的公式(5):

请添加图片描述
这里注意到根据公式 1:

在这里插入图片描述

公式(5)就可以化简为下面的公式(6):

请添加图片描述

我们把变量 I 从公式(6)中解出来就有:
请添加图片描述
这样我们就解开了公式(1),于是就有如下公式(7):

请添加图片描述
至此我们解决了一个复杂微积分的计算问题,在这里我们也能体会到为何很少有人能在数学上有所积累,其实不在于它有多复杂而在于其过程的繁琐,在上面一系列步骤的引出中,只要有一步你没搞懂,那么后面推导就搞不懂,另外按下葫芦浮起瓢,你看到步骤 5,6 就会忘了步骤 3,4,因此需要我们反复琢磨才能把所有逻辑搞懂。当然付出肯定会有回报,有好的数学基础才能掌握复杂的大语言模型算法,或许爬山金字塔顶端并非路程有多难走,而是我们没有那个耐心持续走下去。

更多精彩内容请在 B 站搜索 coding 迪斯尼。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/336255.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

反序列化提升刷题(2)

今天的例题&#xff1a; <?phphighlight_file(__FILE__);class ctfshowvip{public $username;public $password;public $code;public function __construct($u,$p){$this->username$u;$this->password$p;}public function __wakeup(){if($this->username! || $thi…

解决 vue 项目开发越久 node_modules包越大的问题

解决 vue 项目开发越久 node_modules包越大的问题 node_modules.cache 文件&#xff08;编译缓存文件 可以删除 &#xff09; compression-webpack-plugin 禁止缓存 const CompressionPlugin require("compression-webpack-plugin");module.exports {plugins: [ne…

面向对象之深度优先和广度优先

面向对象深度优先和广度优先是什么&#xff1f; 二叉树的两种遍历是数据结构的经典考察题目, 广度遍历考察队列结构, 深度遍历考察递归 深度优先 先序遍历(父, 左子, 右子) 0, 1, 3, 7, 8, 4, 9, 2, 5, 6 中序遍历(左子, 父, 右子) 7, 3, 8, 1, 9, 4, 0, 5, 2, 6 后序遍历(左子…

SpringBoot跨域问题解决

前端访问后台接口时&#xff0c;浏览器报错&#xff0c;跨域无法访问。 报错信息如下&#xff1a; Response to preflight request doesnt pass access control check: No Access-Control-Allow-Origin header is present on the requested resource. 经过一番百度之后&#…

【JVM】运行时数据区

文章目录 运行时数据区程序计数器栈栈帧 堆方法区本地方法栈直接内存变量存储位置 面试题本地方法栈有什么用&#xff1f;没有程序计数器会怎么样&#xff1f;说一说Java的内存分布情况类存放在哪里&#xff1f;局部变量存放在哪里&#xff1f; 运行时数据区 java虚拟机在运行…

acwing讲解篇之93. 递归实现组合型枚举

文章目录 题目描述题解思路题解代码 题目描述 题解思路 本题相当于二叉树的深度优先遍历&#xff0c;树的第i层表示第i个数选或不选&#xff0c;当选择了m次左节点后退出 我们记录当前递归的深度deep 然后用state进行状态压缩&#xff0c;state第i位是1表示选第i个数&#xff…

FaFu--练习复盘--2

3、函数练习 3.1、函数表达式&#xff08;1&#xff09; 描述 根据以下公式计算数学表达式的值&#xff0c;并将结果作为函数值返回。在main()函数中输入x&#xff0c;调用函数fun(x)&#xff0c;并输出fun(x)的值。 输入 输入1行&#xff0c;包含1个double类型的浮点数&…

git22端口超时

笔记本换了个主板后&#xff0c;将内容用git上传到GitHub时发现22端口超时。 以为是网络啥的原因&#xff0c;但是用ssh -T gitgithub.com进行多次测试&#xff0c;发现不是网络问题。按照网上操作&#xff0c;在.ssh文件夹内将config文件进行修改&#xff0c;改成&#xff1a;…

python爬取图片(thumbURL和html文件标签分别爬取)

当查看源代码&#xff0c;发现网址在thumbURL之后时&#xff0c;用此代码: # 当查看源代码&#xff0c;发现网址在thumbURL之后时&#xff0c;用此代码:import requestsheaders {User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:121.0) Gecko/20100101 Firefox/121…

cs231n assignment1——SVM

整体思路 加载CIFAR-10数据集并展示部分数据数据图像归一化&#xff0c;减去均值&#xff08;也可以再除以方差&#xff09;svm_loss_naive和svm_loss_vectorized计算hinge损失&#xff0c;用拉格朗日法列hinge损失函数利用随机梯度下降法优化SVM在训练集和验证集计算准确率&a…

vue项目执行依赖安装(npm i或npm install )报ls-remote -h -t异常

从git拉取的vue项目执行依赖安装时一直报错&#xff0c; 报错如下图&#xff1a;首先&#xff0c;查看了node版本、npm配置的镜像地址均没找到解决办法。 在命令行中直接输入git发现提示于是从网上搜到了一个博文https://blog.csdn.net/weixin_49159364/article/details/118198…

【LeetCode】141. 环形链表

leetcode题目链接 141. 环形链表 #include <stdio.h> #include <stdbool.h>struct ListNode {int val;struct ListNode* next; }; typedef struct ListNode ListNode;bool hasCycle(ListNode* head) {ListNode* slow head, * fast head;while (fast &&…

2023年上半年网络工程师真题(1/3)

1.固态硬盘的存储介质是&#xff08;B&#xff09;。 A.光盘 B.闪存 C.软盘 D.磁盘 SSD存储介质是FLASH(一块块的存储芯片)&#xff0c;HDD(机械硬盘)存储介质是磁盘(机械臂和盘道)&#xff0c;补充:U盘的存储介质也是FLASH闪存。 2.虚拟存储技术把&#xff08;A&#xf…

最长公共前缀(Leetcode14)

例题&#xff1a; 分析&#xff1a; 我们可以先定义两个变量 i &#xff0c; j&#xff0c; j表示数组中的每一个字符串&#xff0c; i 表示每个字符串中的第几个字符。一列一列地进行比较&#xff0c;先比较第一列的字符&#xff0c;若都相同&#xff0c;则 i &#xff0c;继…

可视化 | 【echarts】渐变条形+折线复合图

文章目录 &#x1f4da;html css&#x1f4da;js&#x1f407;总体框架&#x1f407;option配置项 &#x1f4da;html css html&#xff1a;在这主要是用于整合&#xff0c;将html、css、js连接在一块&#xff0c;虽然单个模板代码量不大&#xff0c;但还是先分开&#xff0…

AI语音合成工具-Lalamu Studio

近期&#xff0c;Lalamu Studio开启了beta版本测试&#xff1a;Lalamu Studio。该工具整合了TTS和lip sync功能&#xff0c;可以让任意视频中的人物开口说话&#xff0c;并精确模拟口型。 例如&#xff0c;选择一段视频素材&#xff0c;添加由Ai合成的语音&#xff0c;即可完成…

MyBatis 系列:MyBatis 源码环境搭建

文章目录 一、环境准备二、下载 MyBatis 源码和 MyBatis-Parent 源码三、创建空项目、导入项目四、编译 mybatis-parent五、编译 mybatis六、测试总结 一、环境准备 jdk&#xff1a;17 maven&#xff1a;3.9.5 二、下载 MyBatis 源码和 MyBatis-Parent 源码 Mybatis&#x…

求职中遇到的性格测试

怎样才能不被刷? 最主要的就是自己的性格特征跟当前应聘的岗位是否相符合&#xff0c;这个符合程度越高&#xff0c;通过率自然也就越高。正规的做法都有一个岗位模型&#xff0c;也叫岗位胜任力模型。 以大五人格测试为例&#xff0c;完整版包含30个性格维度&#xff0c;从…

Pyro —— 简介

目录 Differences between legacy and sparse pyro Getting started with pyro using shelf tools Related pyro nodes Sourcing DOP simulation SOP simulation Post-Processing Rendering Simple FX shelf tools Pyro为Houdini的体积流体&#xff08;volumetric flu…

一篇文章搞懂什么是测试,测试是干什么的?

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…
最新文章