机器学习与模式识别 第八章 MAP与偏方差 考点压缩
第八章:Regression (Cont.) and Bias-Variance Trade-off — 知识点笔记
综合来源:Lecture 08 PDF(55页)、课堂笔记(CSDN)
占位图
8.1 先验信念与MAP ⭐⭐
MLE的问题
- MLE仅用数据→小数据/噪声多→可能拟合极端权重
- MLE没有机制编码"权重应该较小/合理"
MAP(最大后验估计)
贝叶斯法则:p(w∣t)∝p(t∣w)×p(w)p(\mathbf{w}|\mathbf{t}) \propto p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})p(w∣t)∝p(t∣w)×p(w)
w^MAP=argmaxwp(w∣t)=argmaxw[p(t∣w)×p(w)]\hat{\mathbf{w}}_{MAP} = \arg\max_{\mathbf{w}} p(\mathbf{w}|\mathbf{t}) = \arg\max_{\mathbf{w}} [p(\mathbf{t}|\mathbf{w}) \times p(\mathbf{w})]w^MAP=argwmaxp(w∣t)=argwmax[p(t∣w)×p(w)]
取负对数→最大化→最小化:
w^MAP=argminw[−lnp(t∣w)−lnp(w)]\hat{\mathbf{w}}_{MAP} = \arg\min_{\mathbf{w}} [-\ln p(\mathbf{t}|\mathbf{w}) - \ln p(\mathbf{w})]w^MAP=argwmin[−lnp(t∣w)−lnp(w)]
高斯先验 → Ridge ⭐⭐⭐
先验假设:wj∼N(0,τ2)w_j \sim \mathcal{N}(0, \tau^2)wj∼N(0,τ2)(权重小、中心在0)
p(w)=∏j12πτ2e−wj2/2τ2p(\mathbf{w}) = \prod_j \frac{1}{\sqrt{2\pi\tau^2}} e^{-w_j^2/2\tau^2}p(w)=j∏2πτ21e−wj2/2τ2
MAP目标:
w^MAP=argminw[12σ2∑n(tn−wTϕ(xn))2+12τ2∥w∥22]\hat{\mathbf{w}}_{MAP} = \arg\min_{\mathbf{w}} \left[\frac{1}{2\sigma^2}\sum_n(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2 + \frac{1}{2\tau^2}\|\mathbf{w}\|_2^2\right]w^MAP=argwmin[2σ21n∑(tn−wTϕ(xn))2+2τ21∥w∥22]
乘以σ2\sigma^2σ2:
=argminw[12∑n(tn−wTϕ(xn))2+σ22τ2∥w∥22]= \arg\min_{\mathbf{w}} \left[\frac{1}{2}\sum_n(t_n - \mathbf{w}^T\phi(\mathbf{x}_n))^2 + \frac{\sigma^2}{2\tau^2}\|\mathbf{w}\|_2^2\right]=argwmin[21n∑(tn−wTϕ(xn))2+2τ2σ2∥w∥22]
λ=σ2τ2\lambda = \frac{\sigma^2}{\tau^2}λ=τ2σ2
核心结论:MAP(高斯先验)= Ridge回归!
- L2正则化 = 假设权重服从高斯先验分布
- λ=σ2/τ2\lambda = \sigma^2/\tau^2λ=σ2/τ2:数据噪声大→λ\lambdaλ大;先验强(τ2\tau^2τ2小)→λ\lambdaλ大
MLE vs MAP 类比
| 频率学派(MLE) | 贝叶斯学派(MAP) | |
|---|---|---|
| 使用 | 仅数据 | 数据 + 先验信念 |
| 硬币例子 | MLE=1.0(仅HH) | 后验均值=0.58(结合先验5/10) |
| 回归 | 最小二乘 | Ridge回归 |
8.2 偏差-方差分解 ⭐⭐⭐
学习的基本挑战
- 拟合数据:解释已观测到的
- 泛化到世界:预测未来、解释未观测到的
三个误差来源
| 来源 | 定义 | 可控? |
|---|---|---|
| 噪声(Noise) | 数据固有随机波动 | ❌ 不可控(通常) |
| 偏差(Bias) | 期望预测值与真实值之间的偏差 | ✅ 模型选择 |
| 方差(Variance) | 不同训练集下预测值的变异性 | ✅ 模型复杂度 |
推导 ⭐
假设t=h(x)+ϵt = h(\mathbf{x}) + \epsilont=h(x)+ϵ,E[ϵ]=0\mathbb{E}[\epsilon]=0E[ϵ]=0,var[ϵ]=σ2\text{var}[\epsilon]=\sigma^2var[ϵ]=σ2
E[(t−fw(x))2]=E[(t−h(x))2]⏟Noise+(h(x)−E[fw(x)])2⏟Bias2+E[(E[fw(x)]−fw(x))2]⏟Variance\mathbb{E}[(t - f_{\mathbf{w}}(\mathbf{x}))^2] = \underbrace{\mathbb{E}[(t - h(\mathbf{x}))^2]}_{\text{Noise}} + \underbrace{(h(\mathbf{x}) - \mathbb{E}[f_{\mathbf{w}}(\mathbf{x})])^2}_{\text{Bias}^2} + \underbrace{\mathbb{E}[(\mathbb{E}[f_{\mathbf{w}}(\mathbf{x})] - f_{\mathbf{w}}(\mathbf{x}))^2]}_{\text{Variance}}E[(t−fw(x))2]=NoiseE[(t−h(x))2]+Bias2(h(x)−E[fw(x)])2+VarianceE[(E[fw(x)]−fw(x))2]
期望预测误差 = 噪声 + 偏差² + 方差
偏差-方差权衡图
误差 ↑ | Total Error | / \ | / \_____ Variance | / Bias² \ |/______________________\____ | Model Complexity → 简单 复杂如何控制模型复杂度
| 方法 | 效果 |
|---|---|
| 特征数量 | 减少→更简单→更高偏差+更低方差 |
| 特征选择 | 选不同基函数→不同偏置 |
| 正则化λ\lambdaλ | λ\lambdaλ↑→更简单→更高偏差+更低方差 |
λ\lambdaλ的偏差-方差效应
- λ\lambdaλ小→模型复杂→低偏差+高方差(过拟合)
- λ\lambdaλ大→模型简单→高偏差+低方差(欠拟合)
- 最优λ\lambdaλ通过验证集确定!
8.3 双重下降(Double Descent)预览
来自CSDN笔记:
- 传统U型曲线:模型复杂度↑→测试误差先降后升
- 双重下降:过参数化后→测试误差再次下降!
- 大模型+继续训练→可能获得更低测试误差
- 实操建议:大模型不一定需要早停
笔记中的图片索引
| 序号 | 图片内容描述 | 来源位置 |
|---|---|---|
| 图1 | 硬币例子:先验→后验更新 | Lecture 08 第4页 |
| 图2 | 偏差-方差分解推导过程 | Lecture 08 第20-36页 |
| 图3 | 偏差-方差权衡经典U型图 | Lecture 08 第37页 |
| 图4 | λ\lambdaλ对偏差-方差的影响 | Lecture 08 第39页 |
| 图5 | sin(2πx)拟合示例 | Lecture 08 第40页 |
笔记整理时间:2026年6月28日