0 决策树基础

目录

1 绪论

2 模型

3 决策树面试总结

1 绪论

         决策树算法包括ID3、C4.5以及C5.0等,这些算法容易理解,适用各种数据,在解决各种问题时都有良好表现,尤其是以树模型为核心的各种集成算法,在各个行业和领域都有广泛的应用。

         决策树是一种树结构,从根节点出发,每个分支都将训练数据划分成了互不相交的子集。分支的划分可以以单个特征为依据,也可以以特征的线性组合为依据。决策树可以解决回归和分类问题,在预测过程中,一个测试数据会依据已经训练好的决策树到达某一叶子节点,该叶子节点即为回归或分类问题的预测结果。

        从概率论的角度理解,决策树是定义在特征空间和类空间上的条件概率分布。每个父节点可以看作子树的先验分布,子树则为父节点在当前特征划分下的后验分布。

        决策树中的每一条路径都对应是划分的一个条件概率分布. 每一个叶子节点都是通过多个条件之后的划分空间,在叶子节点中计算每个类的条件概率,必然会倾向于某一个类,即这个类的概率最大。

2 模型

2.1 ID3

  1. 信息熵:信息熵用来度量样本集合的纯度。信息熵值越小,D 的纯度越高。

Ent(D) =-\sum_{k=1}^{K} p_{k} log_{2}p_{k}

  1. 信息增益:信息增益用来描述一次划分之后纯度的提升有多大。分裂节点前后不确定性提升了多少。 用不同的属性划分样本,会得到不同的信息增益。在 ID3 决策树算法中,我们取能使信息增益最大,即划分后纯度提升(不确定性降低)最大的属性作为当前决策树的划分属性。

Gain(D,A) = H(D) - H(D|A)

  1. 信息增益率(c4.5):使用信息增益当作 cost function 会对可取值数目较多的属性有所偏好,使用信息增益率可以减小这种偏好。添加一个权重,一个特征取值个数越多那么折算越大。折算系数就是特征的熵。

    -- IV 是属性 a 的固有值,a 的可能取值数目越多(V 越大),IV(a) 的值通常越大,信息增益率就会减小。显然信息增益率偏好可取值数目少的属性,不能直接使用它当作 cost function,在 C4.5 决策树算法中,先从侯选属性里找出信息增益高于平均值的属性们,再从中选取信息增益率最高的。

信息增益就是互信息。

       互信息: 描述的是两个随机变量之间相互依赖的程度。具体而言,互信息指获得一个随机变量后,观察另一个随机变量所获得的“信息量”。

https://blog.csdn.net/weixin_36480255/article/details/112640356

互信息、交叉熵、KL散度等公式 信息量、熵、最大熵、联合熵、条件熵、相对熵、互信息,信息增益_熵和信息量-CSDN博客

3 决策树面试总结

ref : https://blog.csdn.net/Heitao5200/article/details/103762474

1 . 决策树和条件概率分布的关系?

决策树可以表示成给定条件下类的条件概率分布,P(A|B)。我们知道贝叶斯分类中采用贝叶斯定律以及条件独立假设,使用极大似然以及先验概率求得寻找能在当前输入X最大的概率y P(Y=y|X=x)。

2. 信息增益比相对信息增益有什么好处?

  • 使用信息增益时:模型偏向于选择取值较多的特征
  • 使用信息增益比时:对取值多的特征加上的惩罚,对这个问题进行了校正。

3 ID3算法—>C4.5算法—> CART算法

ID3:

  1. ID3算法没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途。
  2. ID3算法采用信息增益大的特征优先建立决策树的节点,偏向于取值比较多的特征;
  3. ID3算法对于缺失值的情况没有做考虑;
  4. ID3算法没有考虑过拟合的问题;

C4.5:

  1. 连续的特征离散化
  2. 使用信息增益比
  3. 通过剪枝算法解决过拟合;

C4.5算法常选择后剪枝的方法消除决策树的过度拟合

C4.5的不足:

  1. C4.5生成的是多叉树
  2. C4.5只能用于分类,如果能将决策树用于回归的话可以扩大它的使用范围。
  3. C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算

CART算法:(二叉树)

  1. 可以做回归,也可以做分类,
  2. 使用基尼系数来代替信息增益比
  3. CART分类树离散值的处理问题,采用的思路是不停的二分离散特征。
  4. CART剪枝分为预剪枝和后剪枝两种主要方式;

4 决策树怎么防止过拟合?

  1. 预剪枝(提前停止):控制深度、当前的节点数、分裂对测试集的准确度提升大小
  2. 限制树的高度,可以利用交叉验证选择
  3. 利用分类指标,如果下一次切分没有降低误差,则停止切分;
  4. 限制树的节点个数,比如某个节点小于100个样本,停止对该节点切分
  5. 后剪枝(自底而上):生成决策树、交叉验证剪枝:子树删除,节点代替子树、测试集准确率判断决定剪枝。在决策树构建完成之后,根据加上正则项的结构风险最小化自下向上进行的剪枝操作. 剪枝的目的就是防止过拟合,是模型在测试数据上变现良好,更加鲁棒。

5 如果特征很多,决策树中最后没有用到的特征一定是无用吗?

不是无用的,从两个角度考虑:

  1. 特征替代性,如果可以已经使用的特征A和特征B可以提点特征C,特征C可能就没有被使用,但是如果把特征C单独拿出来进行训练,依然有效
  2. 决策树的每一条路径就是计算条件概率的条件,前面的条件如果包含了后面的条件,只是这个条件在这棵树中是无用的,如果把这个条件拿出来也是可以帮助分析数据.

6 .决策树的优缺点?

优点:

  1. 简单直观,生成的决策树很直观。
  2. 基本不需要预处理,不需要提前归一化,处理缺失值。
  3. 使用决策树预测的代价是O(log2m)O(log2m)。 m为样本数。
  4. 既可以处理离散值也可以处理连续值。很多算法只是专注于离散值或者连续值。
  5. 可以处理多维度输出的分类问题。
  6. 相比于神经网络之类的黑盒分类模型,决策树在逻辑上可以得到很好的解释
  7. 可以交叉验证的剪枝来选择模型,从而提高泛化能力。
  8. 对于异常点的容错能力好,健壮性高。

缺点:

  1. 决策树算法非常容易过拟合,导致泛化能力不强。可以通过设置节点最少样本数量和限制决策树深度来改进。
  2. 决策树会因为样本发生一点点的改动,就会导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
  3. 寻找最优的决策树是一个NP难的问题,我们一般是通过启发式方法,容易陷入局部最优。可以通过集成学习之类的方法来改善。
  4. 有些比较复杂的关系,决策树很难学习,比如异或。这个就没有办法了,一般这种关系可以换神经网络分类方法来解决。
  5. 如果某些特征的样本比例过大,生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/497694.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

火车头通过关键词采集文章的原理

随着互联网信息的爆炸式增长,网站管理员和内容创作者需要不断更新和发布新的文章,以吸引更多的用户和提升网站的排名。而火车头作为一款智能文章采集工具,在这一过程中发挥着重要作用。本文将探讨火车头如何通过关键词采集文章,以…

新能源汽车驱动电机振动噪音分析

驱动电机示例图 驱动电机的噪声主要分为空气动力噪声、电磁噪声和机械噪声。其中在高速运转时空气动力噪声是主要噪声,中低速运转时电磁噪声为主要噪声。 1、空气动力噪声: 空气噪声主要由于风扇转动,使空气流动、撞击、摩擦而产生&#x…

109、Recent Advances in 3D Gaussian Splatting

简介 论文 对3D Gaussian Splatting的综述 质量提升 Mip-Splatting观察到,改变采样率,例如焦距,可以通过引入高频高斯类形伪影或强膨胀效应,极大地影响渲染图像的质量,因此Mip-Splatting将3D表示的频率限制在训练图…

win10微软拼音输入法 - bug - 在PATH变量为空的情况下,无法输入中文

文章目录 win10微软拼音输入法 - bug - 在PATH变量为空的情况下,无法输入中文概述笔记实验前提条件100%可以重现 - 无法使用win10拼音输入法输入中文替代的输入法软件备注END win10微软拼音输入法 - bug - 在PATH变量为空的情况下,无法输入中文 概述 在…

【Leetcode每日一题】模拟 - 提莫攻击(难度⭐)(42)

1. 题目解析 题目链接:495. 提莫攻击 2.算法原理 一、分情况讨论 要计算中毒的总时长,我们需要考虑时间点之间的差值,并根据这些差值来确定中毒的实际持续时间。 情况一:差值大于等于中毒时间 假设你的角色在时间点A中毒&#…

Jenkins拉取github项目相关问题

1.私有仓库问题 1.1如果你的仓库是私有的,21年起github就不支持账号密码的方式拉取代码了 那么就需要在github上面创建一个token (classic) 然后在Jenkins代码设置那里 然后应该就可以顺利打包了。 2.找不到pom(多了一层文件夹)问题 解…

关闭 I2C 时钟延展功能的使用介绍

1.问题发生的背景 某客户使用 STM32L452(作为 I2C 设备)开发光模块产品,在测试时发现,同一设备(硬件及软件均未变动),当插入交换机时,可正常通信,但是当插入 FPGA 测试机…

公链角逐中突围,Solana 何以成为 Web3 世界的流量焦点?

在众多区块链公链中,Solana 凭借其创纪录的处理速度和极低的交易费用,成为了众多开发者和投资者的宠儿。就像网络上流行的那句话所说:“Why slow, when you can Solana?”,Solana 正以它的速度和强大的生态系统,重新定…

centos node puppeteer chrome报错问题

原因:缺少谷歌依赖包,安装以下即可 yum install atkyum install pango.x86_64 libXcomposite.x86_64 libXcursor.x86_64 libXdamage.x86_64 libXext.x86_64 libXi.x86_64 libXtst.x86_64 cups-libs.x86_64 libXScrnSaver.x86_64 libXrandr.x86_64 GConf…

GenICam-GenApi简介

EMVA 1288标准之GemICam-GenApi学习与解读 背景介绍 当前相机不仅用于传输图像,还打包了越来越多的功能。这就导致相机的编程接口越来越复杂。 GenICam的目标是为所有类型的相机提供一个通用的编程接口,无论相机使用何种接口技术,或者实现…

人工智能(pytorch)搭建模型25-基于pytorch搭建FPN特征金字塔网络的应用场景,模型结构介绍

大家好,我是微学AI,今天给大家介绍一下人工智能(pytorch)搭建模型25-基于pytorch搭建FPN特征金字塔网络的应用场景,模型结构介绍。特征金字塔网络(FPN)是一种深度学习模型结构,主要应用于目标检测任务中&am…

如何利用webpack来优化前端性能

当涉及前端性能优化时,Webpack 是一款不可或缺的工具。它不仅仅是一个模块打包工具,还提供了各种功能和插件,可以帮助开发人员优化前端应用程序的性能。在这篇文章中,我们将深入探讨如何有效地利用 Webpack 来优化前端性能&#x…

HCIP的学习(6)

OSPF—开放式最短路径优先协议 动态路由的评判标准 1、占用资源 2、收敛速度 3、选路动态路由分类: IGP---内部网关协议DV型---距离矢量型---RIPLS型---链路状态型---OSPFEGP---外部网关协议OSPF---无类别的路由协议(携带真实掩码)组播224.0…

基于单片机HX711电子秤称重控制设计

**单片机设计介绍,基于单片机HX711电子秤称重控制设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机HX711的电子秤称重控制设计是一个融合了单片机技术、称重传感器技术和显示技术的综合性项目。其设计目…

基于单片机智能家居控制系统设计

**单片机设计介绍,基于单片机智能家居控制系统设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机的智能家居控制系统设计旨在实现家居设备的自动化控制和智能化管理,提高家庭生活的便利性和舒…

Java的IDEA的工程管理

模块和包的图标: 举个例子: IDEA中创建包: 如图所示,com.LBJ的意思是在com包中创建子包LBJ 参见: IDEA中项目、模块和包的关系_idea中模块和项目-CSDN博客

jmockit-01-test 之 jmockit 入门使用案例

拓展阅读 jmockit-01-jmockit 入门使用案例 jmockit-02-概览 jmockit-03-Mocking 模拟 jmockit-04-Faking 伪造 jmockit-05-代码覆盖率 mockito-01-入门介绍 mockito-02-springaop 整合遇到的问题,失效 jmockit 说明 jmockit 可以提供基于 mock 的测试能力…

云数据仓库Snowflake论文完整版解读

本文是对于Snowflake论文的一个完整版解读,对于从事大数据数据仓库开发,数据湖开发的读者来说,这是一篇必须要详细了解和阅读的内容,通过全文你会发现整个数据湖设计的起初原因以及从各个维度(架构设计、存算分离、弹性…

踩坑uniapp中打包Andiord app,在真机调试时地图以及定位功能可以正常使用,打包成app后失效的问题

首先看到这是uni官网提出的,app上建议使用高德地图。 下面就用高德地图进行配置。 步骤一:登陆高德地图控制台 名称和类型根据自己情况填写选择即可 步骤二: 添加key 步骤三:取到SHA1 进入uniapp开发官网 点击应用名称&#…

使用Apache Flink实现MySQL数据读取和写入的完整指南

1. 导言: Apache Flink是一款功能强大的流式处理引擎,可用于实时处理大规模数据。本文将介绍如何使用Flink与MySQL数据库进行交互,以清洗股票数据为例。 2. 环境准备: 首先,确保已安装Apache Flink并配置好MySQL数据…
最新文章