集成算法(随机森林,AdaBoost,Xgboost,Stacking模型)

目录

一、前言

二、Bagging模型

三、Boosting模型

四、Stacking模型

五、总结


一、前言

        集成算法(Enseamable learning)

        集成算法一般考虑树模型,KNN就不太适合

        目的:让机器学习效果更好,单个不好,一起干,三个诸葛亮

        Bagging:训练多个分类器取平均,f(x)=\frac{1}{M}\sum_{m=1}^{M}f_m(x),其中M表示分类器的个数,f_m(x)表示单个训练器。

        Boosting:从弱学习器开始加强,通过加权的方式来进行训练

                公式:F_m(x)=F_{m-1}(x)+argmin_h\sum_{i=1}^{n}L(y_i,F_{m-1}(x_i)+h(x_i))

                可以看出这种方法的最终结果是在上个结果的基础上加上一个补充值(个人理解)

                L(y_i,F_{m-1}(x_i)+h(x_i))表示在上个结果加上此次补充后结果的损失函数,看是否让其变小了。

        Stacking:聚合多个分类或者回归模型(可以分阶段来做);堆叠算法

二、Bagging模型

        全称:Boostrap aggregation

        其实就是并行训练一堆分类器

        最典型代表就是随机森林

        随机:数据采样随机,特征选择随机

        森林:很多个决策树并行放在一起了

        上图就可以很直观的表示出,并行的概念了。

        其中最难的就是随机这个概念,大家想一想如果树模型是一样的,输入数据一样,那么结果也是一样的,这样随机森林做出来就没得啥子意义了。要让它们不一样,模型不能改变,就只能从数据入手了。

        要数据采样随机,特征选择随机。意思是第一个模型只用数据样本的70%,特征也只用70%,第二个模型只用数据样本的70%,特征也只用70%,第三个,第四个......。要保证这二重随机性(个人自创),大家可以想想,可以把这两个随机性,当作随机森林参数。之所以要保证随机性是要保证模型的泛化能力。

        

        随机森林的优势:

                可解释性强,它内部的情况是可以看见的包括走势,中间结果,相当于软件测试中的白盒测试,而深度学习神经网络就相当于黑盒,不可以看见。

                它能够处理很高维度(feature)的数据,并且不用做特征选择

                在训练完后,它可以给出哪些feature比较重要

                

                理论上越多的树效果会越好,但实际上树超过一定的数量就差不多上下浮动了。

                

三、Boosting模型

        典型代表:AdaBoost,Xgboost

        AdaBoost会根据前一次的分类效果调整数据权重

        解释:如果某一个数据在这次分错了,那么在下一次就会给更大的权重(调整权重)

        最终的结果:每个分类器根据自身的准确性来确定各自的权重,在合体

        

        AdaBoost工作流程:

        

        

四、Stacking模型

        堆叠模型:很暴力,拿来一堆直接上(各种分类器都有)

        可以堆叠各种各样的分类器(KNN,SVM,RF等)

        分阶段:第一阶段得出各自的结果,第二阶段再用前一阶段的结果训练

        为了刷结果,不择手段!!!

        

        

        堆叠在一起确实能够使得准确率提升,但是速度是个问题,所以用的不是很多,竞赛可以试试。

五、总结

        集成算法是论文与竞赛神器,当我们更关注于结果时不妨试试!!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/434660.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【力扣白嫖日记】626.换座位

前言 练习sql语句,所有题目来自于力扣(https://leetcode.cn/problemset/database/)的免费数据库练习题。 今日题目: 626.换座位 表:Seat 列名类型idintstudentvarchar id 是该表的主键(唯一值&#xf…

Golang各版本的GC详解

go v1.3的标记清除法 清除的第一步:stw将可达对象标记删除未被标记对象 go v1.5三色标记法 从根节点出发,将下一个节点遍历为灰色,放入灰色集合中遍历灰色节点集合,把灰色能到达的节点标记为灰色,把自身标记为黑色&a…

UniSA: Unified Generative Framework for Sentiment Analysis

文章目录 UniSA:统一的情感分析生成框架文章信息研究目的研究内容研究方法1.总体架构图2.基准数据集SAEval3.Task-Specific Prompt4.Modal Mask Training5.Pre-training Tasks5.1Mask Context Modeling5.2Sentiment Polarity Prediction5.3Coarse-grained Label Con…

latex使用\rm将部分公式或者部分单词设置为正体

在LaTeX中,\rm 是用于设置文字为 “Roman” 字体的命令。这里的 “Roman” 字体通常指的是默认的文本字体,也就是没有特意设置为斜体或粗体的普通字体。然而,\rm 并不总是表示特定的字体样式,而是依赖于当前文档或环境的设置。 在…

TIA博途中安装和更新HSP硬件支持包的具体方法示例

TIA博途中安装和更新HSP硬件支持包的具体方法示例 下面介绍2种方法,大家可根据自己实际的情况来选择适合自己的方法。 方法1: 参考以下链接中的内容: 如何TIA博途中更新HSP硬件目录? 方法2:

力扣515. 在每个树行中找最大值(BFS,DFS)

Problem: 515. 在每个树行中找最大值 文章目录 题目描述思路复杂度Code 题目描述 思路 思路1:BFS 套用BFS模板,直接在遍历树的某一层时将当前层的最大值存入数组中 思路2:DFS 回溯思想,在递归时不断更新可选列表(根据…

(C语言)深入理解指针2之野指针与传值与传址与assert断言

(C语言)深入理解指针1基础:http://t.csdnimg.cn/iGA3V 前面我们了解了指针的一些基础知识,下面我们进行进一步的指针学习 目录 1. 野指针 6.1 野指针成因 1. 指针未初始化 2. 指针越界访问 3. 指针指向的空间释放 6.2 如何…

基于JavaWEB SpringBoot婚纱影楼摄影预约网站设计和实现

基于JavaWEB SSM SpringBoot婚纱影楼摄影预约网站设计和实现 博主介绍:多年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 欢迎点赞 收藏 ⭐留言…

Git快速上手二

对Git命令的深入理解快速上手Git(包含提交至GitHub和Gitee)-CSDN博客 1.5 分支操作 1.5.1 分支原理 系统上线后,又要修改bug,又要开发新的功能。 由于新功能没有开发完,所以需要建立分支,一边修改bug,一边开发新功能,最终合并. 1.5.2 分支实操 创建…

每日一题 — 有效三角形的个数

611. 有效三角形的个数 - 力扣(LeetCode) 思路: 双指针思想,先将数据排序 然后先固定最大的数Max,也就是数组最后的数再定义一左一右两个下标 left 、 right,当这个值相加大于最大的数,那么他两…

【HTML】HTML基础7.2(有序列表)

目录 标签 效果 注意 标签 <ol> <li>列表内容</li> <li>列表内容</li> <li>列表内容</li> <li>列表内容</li> 。。。。。。 </ol> 效果 代码 <ol><li>银河护卫队 10000000000</li><l…

云计算的部署方式(公有云、私有云、混合云、社区云)

云计算的部署方式(公有云、私有云、混合云、社区云) 目录 零、00时光宝盒 一、云计算的部署方式 1.1、公有云&#xff08;Public Cloud&#xff09; 1.2、私有云&#xff08;Private Cloud&#xff09;  1.3、混合云&#xff08;Hybrid Cloud&#xff09; 1.4、社区云&am…

IO多路复用:2024/3/5

作业1、使用poll实现tcp服务器端&#xff0c;select实现tcp客户端 服务器端&#xff1a; #include <myhead.h> #define SER_IP "192.168.199.131" //服务端IP #define SER_PORT 8888 //服务端端口号int main(int argc, const char *argv[])…

调研图基础模型(Graph Foundation Models)

&#x1f349; CSDN 叶庭云&#xff1a;https://yetingyun.blog.csdn.net/ 图基础模型&#xff08;Graph Foundation Models&#xff0c;简称 GFMs&#xff09; 是一种经过预训练的图大模型&#xff0c;旨在处理不同领域的图数据和任务。让我们详细探讨一下这个概念。 Github …

什么是MGR高可用(完整版)

MGR简介 MGR是MySQL Group Replication的缩写&#xff0c;即MySQL组复制。 在以往&#xff0c;我们一般是利用MySQL的主从复制或半同步复制来提供高可用解决方案&#xff0c;但这存在以下几个比较严重的问题&#xff1a; 主从复制间容易发生复制延迟&#xff0c;尤其是在5.6以前…

【考研数学】基础660太难了?一个办法搞定660

觉得题目太难&#xff0c;大概率是题目超出了自己当前的水平 题型没见过&#xff0c;或者太复杂&#xff0c;属于跳级学习了&#xff0c;正确的思路就是回归到自己的水平线&#xff0c;题目略难即可。 这样做题的话&#xff0c;大部分题目涉及的点不会超出自己的能力范围&…

Redis探秘:十大最佳应用场景揭示

文章目录 强烈推荐前言&#xff1a;应用场景:缓存:示例 会话管理:示例 队列:示例 计数器和统计:示例 发布/订阅:示例 分布式锁:示例 实时数据处理:示例 限流和速率控制:示例 会话存储和缓存:示例 地理位置应用:示例 总结&#xff1a;强烈推荐专栏集锦写在最后 强烈推荐 前些天…

爆肝!Claude3与ChatGPT-4到底谁厉害,看完你就知道了!

前言&#xff1a; 相信大家在pyq都被这张图片刷屏了把~ 昨天&#xff0c;为大家介绍了一下什么是Claude&#xff0c;今天咱终于弄到号了&#xff08;再被ban了3个号之后终于是成功的登上去了&#xff0c;如果各位看官觉得咱文章写的不错&#xff0c;麻烦点个小小的关注~你们的…

AI发展历程和常用框架

AI发展历程 近几年的人工智能发展历程可以大致划分为以下几个阶段&#xff1a; 数据驱动的突破&#xff08;2012-2015年&#xff09;&#xff1a;这一时期&#xff0c;随着大数据的兴起和计算能力的提升&#xff0c;深度学习技术开始取得突破。以AlexNet在2012年ImageNet图像…

考研数学——高数:多元函数微分法及其应用

因为复习阶段全篇很细节的写下来一来比较费时间&#xff0c;二容易导致为了记笔记而记。 接下来的内容只会保留上课中比较有意义的地方&#xff0c;以及有自己助于理解的想法 全微分 助记&#xff1a; 证明是否可微&#xff0c;首先判断两个偏导数是否存在&#xff0c;不存在则…
最新文章