机器学习---集成学习的初步理解

机器学习---集成学习的初步理解

article2024/5/13 22:55:51/文章来源:https://blog.csdn.net/weixin_43961909/article/details/134887122

1. 集成学习

集成学习(ensemble learning)是现在非常火爆的机器学习方法。它本身不是一个单独的机器学

习算法，而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集

成学习可以用于分类问题集成，回归问题集成，特征选取集成，异常点检测集成等等，可以说所有

的机器学习领域都可以看到集成学习的身影。

集成学习通过建立几个模型来解决单⼀预测问题。它的⼯作原理是⽣成多个分类器/模型，各自独

立地学习和作出预测。这些预测最后结合成组合预测，因此优于任何⼀个单分类的做出预测。

只要单分类器的表现不太差，集成学习的结果总是要好于单分类器的。

对于训练集数据，通过训练若干个个体学习器，通过一定的结合策略，就可以最终形成一个强

学习器，以达到博采众长的目的。集成学习有两个主要的问题需要解决，第一是如何得到若干个个

体学习器，第二是如何选择一种结合策略，将这些个体学习器集合成一个强学习器。

2. 集成学习例子

对下面实例D1进行分类，得到两个分类结果h1和h2：

对多个分类器的分类结果进行某种组合来决定最终的分类，以取得比单个分类器更好的性能：

定义：集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得

比单个学习器更好的学习效果的一种机器学习方法。如果把单个分类器比作一个决策者的话，集成

学习的方法就相当于多个决策者共同进行一项决策。

在概率近似正确（PAC）学习的框架中，一个概念（一个类），如果存在一个多项式的学习算法能

够学习它，如果正确率很高，那么就称这个概念是强可学习（strongly learnable）的。如果正确率

不高，仅仅比随机猜测略好，那么就称这个概念是弱可学习（weakly learnable）的。后来证明强

可学习与弱可学习是等价的。

3. 解决的问题

3.1 弱分类器之间的关系

第一种就是所有的个体学习器都是一个种类的，或者说是同质的。

第二种是所有的个体学习器不全是一个种类的，或者说是异质的。

个体学习器有两种选择：

第一种就是所有的个体学习器都是一个种类的，或者说是同质的。比如都是决策树个体学习器，或

者都是神经网络个体学习器。

第二种是所有的个体学习器不全是一个种类的，或者说是异质的。比如我们有一个分类问题，对训

练集采用支持向量机个体学习器，逻辑回归个体学习器和朴素贝叶斯个体学习器来学习，再通过某

种结合策略来确定最终的分类强学习器。

目前而言，同质个体学习器应用最广泛，一般常说的集成学习的方法都是指的同质个体学习器。而

同质个体学习器使用最多的模型是CART决策树和神经网络。同质个体学习器按照个体学习器之间

是否存在依赖关系可以分为两类，第一个是个体学习器之间存在强依赖关系，一系列个体学习器基

本都需要串行生成，代表算法是boosting系列算法，第二个是个体学习器之间不存在强依赖关系，

一系列个体学习器可以并行生成，代表算法是bagging和随机森林（Random Forest）系列算法。

3.2 如何选择个体学习器

考虑准确性和多样性：

准确性指的是个体学习器不能太差，要有一定的准确度；

多样性则是个体学习器之间的输出要具有差异性。

3.3 弱分类器的组合策略

①平均法：对于数值类的回归预测问题

思想：对于若干个弱学习器的输出进行平均得到最终的预测输出。

简单平均法：

加权平均法：

其中wi是个体学习器hi的权重，通常有wi≥0，

②投票法：对于分类问题的预测

思想：多个基本分类器都进行分类预测，然后根据分类结果用某种投票的原则进行投票表决，按照

投票原则使用不同投票法：一票否决、阈值表决、少数服从多数。

阈值表决：首先统计出把实例x划分为Ci和不划分为Ci的分类器数目分别是多少，然后当这两者比

例超过某个阈值的时候把x划分到Ci。

③学习法：之前的方法都是对弱学习器的结果做平均或者投票，相对比较简单，但是可能学习误差

较大。代表方法是Stacking。

思想：不是对弱学习器的结果做简单的逻辑处理，而是再加上一层学习器，分为2层。第一层是用

不同的算法形成T个弱分类器，同时产生一个与原数据集大小相同的新数据集，利用这个新数据集

和一个新算法构成第二层的分类器。

4. 集成学习方法

根据个体学习器的生成方式，目前的集成学习方法大致可分为两类：

Boosting：个体学习器间存在强依赖关系，必须串行生成的序列化方法；串行：下一个分类器只

在前一个分类器预测不够准的实例上进行训练或检验。

Bagging：个体学习器间不存在强依赖关系，可同时生成的并行化方法。并行：所有的弱分类器都

给出各自的预测结果，通过组合把这些预测结果转化为最终结果。

4.1 Boosting

重赋权法：即在训练过程的每一轮中，根据样本分布为每一个训练样本重新赋予一个权重。对无法

接受带权样本的基学习算法，则可以通过重采样法来处理，即在每一轮的学习中，根据样本分布对

训练集重新进行采样，在用重采样而来的样本集对基学习器进行训练。

代表算法：

Adboost，决策树+adboost=提升树

GBDT（Gradient BoostDecision Tree）梯度提升决策树，决策树+Gradient Boosting=GBDT

其他叫法： Gradient Tree Boosting，GBRT (Gradient BoostRegression Tree) 梯度提升回归树

MART (MultipleAdditive Regression Tree) 多决策回归树，Tree Net决策树网络

4.2 Bagging (bootstrap aggregation )

从样本集中用Bootstrap采样选出n个样本，在所有属性上，对这n个样本建立分类器（CART or

SVM or ...），重复以上两步m次，i.e.build m个分类器（CART or SVM or ...）。将数据放在这m

个分类器上跑，最后vote看到底分到哪一类。

Bootstrap方法是非常有用的一种统计学上的估计方法。 Bootstrap是对观测信息进行再抽样，进而

对总体的分布特性进行统计推断。Bootstrap是一种有放回的重复抽样方法，抽样策略就是简单的

随机抽样。

随机森林：决策树+bagging=随机森林

4.3 两者的区别

从偏差-方差分解的角度：

偏差(bias) ：描述的是预测值的期望与真实值之间的差距。偏差越大，越偏离真实数据。

方差(variance) ：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。

方差越大，数据的分布越分散。

Boosting主要关注降低偏差：偏差刻画了学习算法本身的拟合能力，Boosting思想，对判断错误的

样本不停的加大权重，为了更好地拟合当前数据，所以降低了偏差，因此Boosting能基于泛化性能

相当弱的学习器构建出很强的集成。Boosting是把许多弱的分类器组合成一个强的分类器。

Bagging主要是降低方差：度量了同样大小的数据集的变动所导致的学习性能的变化。刻画了数据

扰动所造成的影响。 Bagging思想，随机选择部分样本来训练处理不同的模型，再综合来减小方

差，因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效果更明显。Bagging是对许多

强（甚至过强）的分类器求平均。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mfbz.cn/a/229265.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息

查询服务器CPU、内存、磁盘、网络IO、队列、数据库占用空间等等信息

文章目录摘要1. 查询CPU使用率命令：top -bn1 | grep \"Cpu(s)\" | awk {split($0,arr,\" \");print 100-arr[8]}2. 查询内存命令（单位：G）：top -bn1 | grep \"KiB Mem\" | awk {split($…

阅读更多...

【C语言】函数递归详解（一）

【C语言】函数递归详解（一）

目录 1.什么是递归： 1.1递归的思想： 1.2递归的限制条件： 2.递归举例： 2.1举例1：求n的阶乘： 2.1.1 分析和代码实现： 2.1.2图示递归过程： 2.2举例2：顺序打印一个整数的…

阅读更多...

设计并实现一个多线程图书馆管理系统，涉及数据库操作

设计并实现一个多线程图书馆管理系统，涉及数据库操作

没有实现全部功能，希望路过的大佬，可以实现全部功能，在评论区聊聊创建数据库library-demo CREATE DATABASE library-demo创建图书表book CREATE TABLE book (bookId int(11) NOT NULL AUTO_INCREMENT COMMENT 图书ID,bookName varchar(15)…

阅读更多...

14.Java程序设计-基于Springboot的高校社团管理系统设计与实现

14.Java程序设计-基于Springboot的高校社团管理系统设计与实现

摘要随着高校社团活动的不断丰富和社团数量的逐渐增加，高校社团管理面临着日益复杂的挑战。为了提高社团管理的效率和透明度，本研究基于Spring Boot框架设计并实现了一套高校社团管理系统。该系统旨在整合社团创建、成员管理、活动发布等多个功能&…

阅读更多...

Pipenv环境配置+Pytest运行

Pipenv环境配置+Pytest运行

环境配置使用Pipenv进行虚拟环境管理，Pipfile为依赖模块管理文件。安装pipenv：brew install pipenv根项目根目录下执行命令创建虚拟环境： pipenv install在Pycharm中指定项目运行的虚拟环境 ：File->Settings->Project:-…

阅读更多...

uniapp 使用 $emit和$on——$on中无法为data中的变量赋值

uniapp 使用 $emit和$on——$on中无法为data中的变量赋值

问题在于this的指向， 解决办法是使用变量保存$on，其次再为data中的值赋值以下是具体代码： 1、html代码： <view class"form_picker" click"selePositionFun()"><view class""><inp…

阅读更多...

python 使用 watchdog 实现类似 Linux 中 tail -f 的功能

python 使用 watchdog 实现类似 Linux 中 tail -f 的功能

一、代码实现 import logging import os import threading import timefrom watchdog.events import FileSystemEventHandler from watchdog.observers import Observerlogger logging.getLogger(__name__)class LogWatcher(FileSystemEventHandler):def __init__(self, log_…

阅读更多...

嵌入式杂记 - MDK的Code, RO-data , RW-data, ZI-data意思

嵌入式杂记 - MDK的Code, RO-data , RW-data, ZI-data意思

嵌入式杂记 - Keil的Code, RO-data , RW-data, ZI-data意思 MDK中的数据分类MCU中的内部存储分布MDK中数据类型存储Code代码段例子 RO-data 只读数据段例子 RW-data 可读写数据段例子 ZI-data 清零数据段例子在嵌入式开发中，我们经常都会使用一些IDE，例…

阅读更多...

《一念关山》热度破万，爱奇艺古装赛道出尽风头

《一念关山》热度破万，爱奇艺古装赛道出尽风头

刘诗诗重回古装剧、新式武侠公路片、质感细腻的镜头美学......看点满满的《一念关山》频频登上热搜，俘获了大批观众的心。开播首日热度就刷新了爱奇艺2023年站内纪录，《一念关山》作为2023年爱奇艺在古装赛道的收官之作，口碑和热度兼收。…

阅读更多...

理解 GET、POST、PATCH 和 DELETE 请求的参数传递方式

理解 GET、POST、PATCH 和 DELETE 请求的参数传递方式

理解 GET、POST、PATCH 和 DELETE 请求的参数传递方式本文将向您介绍在使用 GET、POST、PATCH 和 DELETE 请求时如何传递参数。通过详细解释每种请求的参数传递方式和示例代码，您将了解如何正确地将数据发送到服务器并与之交互。 GET 请求的参数传递方式在 GET…

阅读更多...

0012Java程序设计-ssm医院预约挂号及排队叫号系统

0012Java程序设计-ssm医院预约挂号及排队叫号系统

文章目录 **摘** **要**目录系统实现5.2后端功能模块5.2.1管理员功能模块5.2.2医生功能模块开发环境摘要网络的广泛应用给生活带来了十分的便利。所以把医院预约挂号及排队叫号管理与现在网络相结合，利用java技术建设医院预约挂号及排队叫号系统，实…

阅读更多...

【LeetCode】692. 前K个高频单词

【LeetCode】692. 前K个高频单词

692. 前K个高频单词描述示例解题思路及事项思路一思路二描述给定一个单词列表 words 和一个整数 k ，返回前 k 个出现次数最多的单词。返回的答案应该按单词出现频率由高到低排序。如果不同的单词有相同出现频率， 按字典顺序排序示例示例1 输…

阅读更多...

【Java 基础】25 比较器

【Java 基础】25 比较器

文章目录 1.什么是比较器2.比较器的种类1）Comparable2）Comparator4）组合比较器总结 1.什么是比较器比较器是用于对对象进行比较的工具比较器允许开发者定义对象之间的顺序，使得排序和比较操作更加灵活。还记得我们之前学的数…

阅读更多...

如何为游戏角色3D模型设置纹理贴图

如何为游戏角色3D模型设置纹理贴图

在线工具推荐： 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎当谈到游戏角色的3D模型风格时，有几种不同的风格&#xf…

阅读更多...

Hugging Face 给普通用户提供了一个 2 vCPU 16GB 的免费空间

Hugging Face 给普通用户提供了一个 2 vCPU 16GB 的免费空间

Hugging Face 给普通用户提供了一个 2 vCPU 16GB 的免费空间，并且支持部署 Gradio 构建的应用程序，非常方便，下面我们进入 https://huggingface.co/spaces/ ，点击创建空间。

阅读更多...

HbuilderX使用Uniapp+Vue3安装uview-plus

HbuilderX使用Uniapp+Vue3安装uview-plus

如果你是vue2版本想使用uniapp去配置uviewui库可以参考之前的文章小程序的第三方ui库推荐较多的还是uview的，看起来比较美观，功能也比较完善，下面将提一下Vue3安装uview-plus库的教程创建项目安装首先进入官网 uView-Plus 直接下载并导…

阅读更多...

Linux驱动开发一

Linux驱动开发一

一、Linux驱动开发与裸机开发的区别 1、开发思维区别裸机驱动： （1）底层，跟寄存器打交道，有些MCU提供了库 Linux驱动： （1）Linux下驱动开发直接操作寄存器不现实 （2…

阅读更多...

LeetCode题：174. 地下城游戏

LeetCode题：174. 地下城游戏

目录一、题目要求二、解题思路 （1）状态表示 （2）状态转移方程 （3）初始化dp表 （4）填表顺序 （5）返回值三、代码一、题目要求 174. 地下城游戏恶魔们…

阅读更多...

这是最后的战役了

这是最后的战役了

不变因子初等因子行列式因子 smith标准型酉矩阵 H-阵等等 A H A A^H A AHA 就是 H-阵正定H阵的性质若 A A A 为正定的H-阵. 存在可逆矩阵 Q Q Q， 使得 A Q H Q AQ^H Q AQHQ.存在 P P P, 使得 P H A P I P^HAPI PHAPI.A的特征值大于0. Q − 1 A Q Q^{…

阅读更多...

根据java类名找出当前是哪个Excel中的sheet

根据java类名找出当前是哪个Excel中的sheet

pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 …

阅读更多...

最新文章