政安晨:机器学习快速入门(四){pandas与scikit-learn} {随机森林}

咱们将在这篇文章中使用更复杂的机器学习算法。

随机森林

基本定义

随机森林(Random Forest)是一种机器学习算法,属于集成学习(ensemble learning)的一种。它是通过构建多个决策树(即森林)来进行预测和分类的。

随机森林的主要特点是采用了随机采样和随机特征选择的方法,以降低模型的方差和减小过拟合的风险。在随机森林中,对于每个决策树的构建,会从训练集中随机选择一部分样本进行有放回抽样,同时也会随机选择一部分特征进行划分,以减少决策树间的相关性。

在预测时,随机森林通过让每个决策树进行独立的预测,然后根据投票或平均值来决定最终的预测结果。这样可以提高模型的准确性、鲁棒性和稳定性。

随机森林广泛应用于分类、回归和特征选择等领域,其在处理大规模和高维数据时也具有良好的性能。同时,随机森林还能够评估变量的重要性、处理缺失值和处理不平衡数据等问题,因此在实际应用中得到了广泛使用。

做个说明

决策树给你留下了一个困难的决定。一棵包含许多叶子节点的深树会过拟合,因为每个预测都只来自其叶子节点中的少数房屋的历史数据。但是,一棵只有少数叶子节点的浅树表现较差,因为它无法捕捉到原始数据中的许多差异。

即使是当今最复杂的建模技术,也面临着欠拟合和过拟合之间的紧张关系。但是,许多模型有着聪明的想法可以提高性能。我们以随机森林为例进行说明。

随机森林使用多棵树,并通过对每棵组成树的预测进行平均来进行预测。它通常比单棵决策树具有更好的预测准确性,并且在默认参数下工作良好。如果您继续建模,可以学习到更多性能更好的模型,但其中许多对于获取正确参数非常敏感。

举个例子

您已经多次看到了加载数据的代码。在数据加载结束时,我们有以下变量:

  • train_X
  • val_X
  • train_y
  • val_y

咱们现在继续使用与前几篇类似的代码:

import pandas as pd
    
# Load data
melbourne_file_path = './melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
# Filter rows with missing values
melbourne_data = melbourne_data.dropna(axis=0)
# Choose target and features
y = melbourne_data.Price
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'BuildingArea', 
                        'YearBuilt', 'Lattitude', 'Longtitude']
X = melbourne_data[melbourne_features]

from sklearn.model_selection import train_test_split

# split data into training and validation data, for both features and target
# The split is based on a random number generator. Supplying a numeric value to
# the random_state argument guarantees we get the same split every time we
# run this script.
train_X, val_X, train_y, val_y = train_test_split(X, y,random_state = 0)

我们使用scikit-learn类似于构建决策树的方式构建随机森林模型 ——  这次使用RandomForestRegressor类而不是DecisionTreeRegressor类。

代码如下:

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

{还是依旧做个说明}

如果大家第一次看到这篇文章,那么搭建环境、前因后果等等都参看我的前三篇文章:

政安晨:机器学习快速入门(一){基于Python与Pandas}icon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/136046028政安晨:机器学习快速入门(二){基于Python与Pandas} {建立您的第一个机器学习模型}icon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/136047590政安晨:机器学习快速入门(三){pandas与scikit-learn} {模型验证及欠拟合与过拟合}icon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/136051177好啦,咱们现在开始执行上述代码:

结论

可能还有进一步改进的空间,但相比于前面几篇看到的最佳决策树误差为250,000,这已经是一个巨大的改进。有一些参数可以改变随机森林的性能,就像我们改变单个决策树的最大深度一样。但是,随机森林模型最好的特点之一是它们通常可以在没有调整的情况下运行得相当合理。

写在最后

作者政安晨用4篇文章的演练帮助大家完成了机器学习的基本入门,但伟大的征程这才刚刚开始,瑰丽的画卷逐渐在您的脚下铺开,人工智能是星辰大海,机器学习是渡海之舟。

如果您想要继续提升机器学习的技能,去参加机器学习竞赛吧,不要认为这个领域是聪明大脑的游戏,其实谁也不比谁苯,机器学习只是让我们的日常生活中碰到的各类问题朝着最优解再做一遍而已。

小伙伴们,加油!

已经是老人家的我期待着你们的好消息!呵呵。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/376777.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何配置Pycharm服务器并结合内网穿透工具实现远程开发

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《Linux》《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,…

Idea Git Review插件

idea git plugin 添加了一些常用的小插件 可以右键打开git bash窗口 可以右键选中文字点击baidu fanyi 可以通过搜索git用户名 指定开始时间查询某个版本自己提交的所有代码文件 可以通过点击蓝色行数,跳转到指定的改动代码块 资源地址: git-pl…

【C语言 - 力扣 - 反转链表】

反转链表题目描述 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 题解1-迭代 假设链表为 1→2→3→∅,我们想要把它改成 ∅←1←2←3。 在遍历链表时,将当前节点的 next 指针改为指向前一个节点。由于节点没…

STM32 新建寄存器版本MDK工程简要步骤

新建工程文件夹 新建一个工程根目录文件夹,并在该文件夹里新建D/M/O/P/U文件夹。 Drivers:存放与硬件相关的驱动层文件Middlewares:存放正点原子提供的中间层组件文件和第三方中间层文件Output:存放工程编译输出文件Projects&am…

前端学习笔记 | HTML5+CSS3静态网页制作的技巧(持续更新)

注:本文的css样式均使用less写法 1、字体居中 (1)先text-align:center;行内元素水平居中 (2)再line-heigh:(盒子高度);行内元素垂直居中 text-align: center;line-height: ( 30 / vw ); 2、盒子居中 情景1&#…

【AIGC风格prompt深度指南】掌握绘画风格关键词,实现艺术模仿的革新实践

[小提琴家]ASCII风格,点,爆炸,光,射线,计算机代码 由冰和水制成的和平标志]非常详细,寒冷,冰冻,大气,照片逼真,流动,16K 胡迪尼模拟火和水&#x…

MySQL数据引擎、建库及账号管理

目录 一、MySQL数据库引擎 1.1.MySQL常见数据库引擎 1.InnoDB(MySQL默认引擎) 2.MyISAM 3.MEMORY(Heap) 1.2.存储引擎查看 二、建库 1.默认数据库介绍 2.建库 3.查看数据库 4.删除数据库 三、账号管理 1.创建用户 1.创建用户并设置登陆密码…

Ryzen Controller 最新版本下载

Ryzen Controller 最新版本下载 GitLab中最新版本地址: Releases Ryzen Controller Team / Ryzen Controller GitLab 然后语言切换成简体中文,就可以愉快使用啦

Springboot多种方法处理静态资源:设置并访问静态资源目录

~目录嗷~ 静态文件application设置方法 配置详解编写配置优缺点 设置配置类方法 配置详解编写配置优缺点 总结 作者:Mintimate 博客:https://www.mintimate.cn Mintimate’s Blog,只为与你分享 静态文件 静态资源&…

FlinkSql 窗口函数

Windowing TVF 以前用的是Grouped Window Functions(分组窗口函数),但是分组窗口函数只支持窗口聚合 现在FlinkSql统一都是用的是Windowing TVFs(窗口表值函数),Windowing TVFs更符合 SQL 标准且更加强大…

uniapp 本地存储的方式

1. uniapp 本地存储的方式 在uniapp开发中,本地存储是一个常见的需求。本地存储可以帮助我们在客户端保存和管理数据,以便在应用程序中进行持久化存储。本文将介绍uniapp中本地存储的几种方式,以及相关的代码示例。 1.1. 介绍 在移动应用开发…

浅谈bypass Etw

文章目录 c#ExecuteAssemblybypass etw c# loader 一种是通过反射找到指定空间的类中method进行Invoke 另一种是通过EntryPoint.Invoke加载 反射加载 Assembly.Load()是从String或AssemblyName类型加载程序集,可以读取字符串形式的程序集 Assembly.LoadFrom()从指定…

elk之倒排索引

写在前面 本文看下es的倒排索引相关内容。 1:正排索引和倒排索引 正排索引就是通过文档id找文档内容,而倒排索引就是通过文档内容找文档id,如下图: 2:倒排索引原理 假定我们有如下的数据: 为了建立倒…

第21讲:动态内存管理

1.为什么要有动态内存分配 2.malloc和free 3.calloc 4.realloc 5.笔试题 6.总结c/c中程序内存区域划分 1.为什么要有动态内存分配 为了调整申请的空间大小,使程序员可以申请和释放空间,提高程序的灵活性 2.malloc和free 作用:分配一块…

安装Pytorch中的torchtext之CUDA版的正确方式

安装Pytorch和torchtext: Previous PyTorch Versions | PyTorch Installing previous versions of PyTorchhttps://pytorch.org/get-started/previous-versions/ 上面的命令如下: pip install torch2.1.2 torchvision0.16.2 torchaudio2.1.2 --index-…

单片机学习笔记---串口通信(2)

目录 串口内部结构 串口相关寄存器 串口控制寄存器SCON SM0和SM1 SM2 REN TB8和RB8 TI和RI 电源控制寄存器PCON SMOD 串口工作方式 方式0 方式0输出: 方式0输入 方式1 方式1输出。 方式1输入 方式2和方式3 方式2和方式3输出: 方式2和…

Nacos(2)

Nacos部署 服务器端docker部署(需要服务器安装好docker) 导入sql文件到服务器编写nacos配置文件custom.env(示例如下,改为自己服务器nacos相关信息) PREFER_HOST_MODEhostname MODEstandalone SPRING_DATASOURCE_PL…

CentOS7如何安装宝塔面板并实现固定公网地址远程访问

文章目录 一、使用官网一键安装命令安装宝塔二、简单配置宝塔,内网穿透三、使用固定公网地址访问宝塔 宝塔面板作为建站运维工具,适合新手,简单好用。当我们在家里/公司搭建了宝塔,没有公网IP,但是想要在外也可以访问内…

代码随想录算法训练营第12天—二叉树01 | ● 理论基础 ● *递归遍历 ● *迭代遍历

理论基础 文章讲解:https://programmercarl.com/%E4%BA%8C%E5%8F%89%E6%A0%91%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%80.html 二叉树是一种数据结构,常用于递归场景二叉树:binary tree,每个节点最多有两个子节点(分支&a…

获取旁站 / C 段:第三方网站(附链接)

一、介绍 1.1 旁段 在网络安全的上下文中,"旁段"(Pivot)是指攻击者通过入侵一个网络中的一台计算机,然后利用该计算机作为跳板(或者称之为“旁道”)来访问其他计算机或网络资源的行为。 攻击者…
最新文章