泊松镇贴
二项分布和泊松分布的表达式
二项分布:
P
(
x
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
P(x=k) = C_n^kp^k(1-p)^{n-k}
P(x=k)=Cnkpk(1−p)n−k
泊松分布:
P
(
x
=
k
)
=
λ
k
k
!
e
−
λ
P(x=k) = \frac{\lambda^k}{k!}e^{-\lambda}
P(x=k)=k!λke−λ
一个现实生活中的例子
一条汽车单向行驶的公路边有个便利店,店家经过一周的统计,得到数据:上个周一共有100辆次的车从这个便利店通过,其中有5辆次的车来买了东西。那么,店家现在想用这个数据来推测,下周,有6辆次的车会在这个便利店买东西的概率是多少?
现在,假设我们只知道二项分布而对泊松分布一无所知,我们如何通过构建二项分布的数学模型来解决这个问题呢?
这是二项分布的经典场景。对于通过的每一辆车,它只有两种可能的观测结果,那就是买东西和不买东西。这是一个 0-1 分布。现在我们做一个假设,假设每辆车通过时停下来买东西的概率是一样的(这样做假设不会影响整体的推测,因为做统计时,我们只统计了通过的车的总辆次和停下来买东西的车的总次数,也就是说做统计时每辆车是没有区别的)。通过买东西的车的总辆次 / 通过的车的总辆次,我们能得到每一辆车的 0-1 分布,任意一辆车停下来买东西的概率 P 为: 5 100 = 0.05 \frac{5}{100}=0.05 1005=0.05
行为 | 买东西 | 不买东西 |
---|---|---|
P | 0.05 | 0.95 |
现在,我们已经通过对之前统计的数据的分析,知道了任意一辆车通过时停下来买东西的概率。如何通过这个0-1分布来做预测?那就做独立重复实验(也就是伯努利试验),假设有 n 辆车在下个周通过该路口,每辆车停下来买东西的概率都是 p,则有 k 辆车到商店买东西的概率为:
P
(
x
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
P(x=k) = C_n^kp^k(1-p)^{n-k}
P(x=k)=Cnkpk(1−p)n−k
为此,我们必须颇为无奈地对下个周通过这条路的车的总辆次做个假设,那就是也通过100辆。现在我们就能做预测啦!
P
(
x
=
6
)
=
C
100
6
×
0.0
5
6
×
(
1
−
0.05
)
100
−
6
≈
0.15
P(x=6) = C_{100}^{6}\times0.05^{6}\times(1-0.05)^{100-6} \approx 0.15
P(x=6)=C1006×0.056×(1−0.05)100−6≈0.15
如果以时间为维度来考量,二项分布就会出问题
上一种通过二项分布来做预测的方法,依赖于我们需要做一个假设,即下一个周通过这条路的车的总辆次是100辆。现在我们想绕过需要对总辆次做假设这一障碍,用时间来作为观察的基准。但是因为二项分布所对应的伯努利实验的每一次实验是零散的,所以不得不将连续的时间进行分割。这就要涉及到单位时间,我们不妨把单位时间设置成小时,1周 = 7 × 24 = 168 7 \times 24 = 168 7×24=168 小时。根据之前的观察,一共有 5 辆车次的车去到商店买东西,也就是说,每小时有车进商店买东西的概率为 P = 5 168 ≈ 0.02976 P=\frac{5}{168}\approx 0.02976 P=1685≈0.02976。好像,我们又可以像上面那样去建立一个关于单位时间的0-1分布了。但是其实这个模型缺陷就出来了,由于考察的对象是单位时间,它的结果不再只有两个,即该时间段进入商店买东西的车的数量除了0、1,还可能是2、3、4、…,所以其实用0-1分布来对单位时间进入商店的车的数量进行模拟是不太科学的。
那怎么办呢?自然而然,会想到将单位时间继续分割为更小的单位时间,如果把小时分割为分钟,那每分钟就可以做60次独立重复实验,也就是说这下每分钟最多可以有60辆车进入商店买东西了。但是这样仍然不满足时间这个连续的度量,要是出现极端情况,每分钟有70辆车进入商店呢,这个模型又没法满足了。自然而然,我们想到将时间无限的分割下去。在非常非常小的一段时间里,我们就能做0-1分布的假设了,即在这段时间里只有 0 或 1 辆车进入商店买东西。但是无限的分割时间之后,我们还怎么计算这个无穷小的单位时间里车进入商店的概率呢?答案是,根本就不用去计算。因为我们的观测量是一个周汽车进入商店的辆次的总数,不妨把它记为 λ \lambda λ,它满足下面的等式:
λ
=
n
p
\lambda = n p
λ=np
其中 n 为将一周的时间无限分割成的无穷小的单位时间的总份数,而 p 是分割成这么多份数之后,根据观测值
λ
\lambda
λ 所计算出来的该单位时间里有车辆进入商店的概率。
从二项式公式推导泊松公式
P
(
X
=
k
)
=
lim
n
→
∞
C
n
k
p
k
(
1
−
p
)
n
−
k
=
lim
n
→
∞
C
n
k
(
λ
n
)
k
(
1
−
λ
n
)
n
−
k
=
lim
n
→
∞
n
×
(
n
−
1
)
×
⋯
×
(
n
−
k
+
1
)
k
!
(
λ
n
)
k
(
1
−
λ
n
)
n
(
1
−
λ
n
)
−
k
=
lim
n
→
∞
n
×
(
n
−
1
)
×
⋯
×
(
n
−
k
+
1
)
n
×
n
×
⋯
×
n
λ
k
k
!
(
1
−
λ
n
)
−
k
(
1
−
λ
n
)
n
=
1
×
λ
k
k
!
×
1
×
e
−
λ
=
λ
k
k
!
e
−
λ
\begin{align*} P(X=k) & = \lim_{n\rightarrow\infty}C_n^kp^k(1-p)^{n-k}\\ &= \lim_{n\rightarrow\infty}C_n^k(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}\\ &= \lim_{n\rightarrow\infty}\frac{n\times(n-1)\times\cdots\times(n-k+1)}{k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n}(1-\frac{\lambda}{n})^{-k}\\ &=\lim_{n\rightarrow\infty}\frac{n\times(n-1)\times\cdots\times(n-k+1)}{n\times n\times\cdots\times n}\frac{\lambda^k}{k!}(1-\frac{\lambda}{n})^{-k}(1-\frac{\lambda}{n})^{n}\\ &= 1\times \frac{\lambda^k}{k!} \times 1 \times e^{-\lambda} \\ &= \frac{\lambda^k}{k!}e^{-\lambda} \end{align*}
P(X=k)=n→∞limCnkpk(1−p)n−k=n→∞limCnk(nλ)k(1−nλ)n−k=n→∞limk!n×(n−1)×⋯×(n−k+1)(nλ)k(1−nλ)n(1−nλ)−k=n→∞limn×n×⋯×nn×(n−1)×⋯×(n−k+1)k!λk(1−nλ)−k(1−nλ)n=1×k!λk×1×e−λ=k!λke−λ
推导之后我们发现,其实根本不需要用到 n 和 p 这两个数据,而只有观测值
λ
\lambda
λ。到这里是不是觉得泊松大大干了一件非常有价值的事情!
通过泊松分布来对这个问题进行预测
根据之前的统计,
λ
=
5
\lambda = 5
λ=5
P
(
X
=
6
)
=
5
6
6
!
e
−
5
≈
0.1462
P(X=6) = \frac{5^6}{6!}e^{-5} \approx 0.1462
P(X=6)=6!56e−5≈0.1462
总结
根据二项分布推导出了泊松分布,并不代表二项分布就没有泊松分布先进,只是对于解决连续时间的这种问题,显然泊松分布更好用。但是有些情况下,二项分布会更好用。