【数据分析】学习笔记day1

sklearn与经典机器学习算法

      • 机器学习的利器——sklearn
          • 机器学习的7个流程:
          • sklearn的功能主要分为六大部分:

目标:
1、掌握sklearn的基本用法
2、掌握线性回归的原理,并进行实践操作
3、理解监督学习经典算法、如K-近邻算法
4、理解非监督学习经典算法

机器学习的利器——sklearn

机器学习的7个流程:

1、数据处理
2、分割数据
3、训练模型
4、验证模型
5、测试模型
6、使用模型
7、调优模型

 数据处理:从磁盘中读取数据,并对数据进行预处理(如归一化、标准化、正则化、属性缩放、特征编码、插补缺失值、生成多项式特征等。
分割数据:将数据随机分割成三组:训练集、验证集(有时为可选项)、测试集
训练模型:针对选取好的特征,使用训练数据来构建模型,即拟合数据,寻找最优的模型参数。
(这里的拟合数据,主要是指使用各种机器学习算法来学习数据中的特征,拟合出损失函数最小化参数)
验证模型:使用验证集的数据接入模型。我们将模型在验证集上的表现作为模型参数优化和选择的依据。
(常用的方法有:Holdout验证、留一验证等)
测试模型:在优化模型的参数以后,使用测试数据验证模型的表现,可以评估模型泛化性能。

拓展:
在有些场景下,测试模型和验证模型是有区别的。
如果我们不设置验证集,而不断地使用相同的测试集来评估模型性能,久而久之,作为“裁判”的测试集,其角色慢慢就会“蜕变”成训练集,从而让模型陷入过拟合状态。
为了解决这个问题,有时就把数据集一分为三:
	一部分用于训练,即作为训练集;
	一部分用于模型优化,即作为验证集;
	一部分用于评估模型的泛化误差,即作为测试集,通常不参与模型的优化。
使用模型:模型训练完毕后,在全新数据集上进行预测。(所有机器学习算法的终极价值,都体现在对新数据的预测上)
调优模型:当我们不断使用更多的数据(包括预测的新数据)时,就会得到反馈,然后根据反馈重新调整数据使用策略(包括收集更为全面的数据、使用不同的特征、调整过往模型参数等,以此来迭代优化模型)

实际上以上1~7可以算作一个无限循环、迭代升级的过程。

sklearn的功能主要分为六大部分:

1、分类
2、回归
3、聚类
4、数据降维
5、模型选择
6、数据预处理

分类:如果定性输出预测(预测变量是离散值),可称之为分类。比如预测花的品类、顾客是否购买商品等。
(sklearn中已实现的经典分类算法包括:支持向量机(SVM)、最近邻算法、Logistic回归、随机森林、决策树、多层感知机(MLP)等)
回归:如果定量输出预测(预测变量是连续值),则称之为回归。比如预测花的长势、房价的涨势等。
(目前sklearn中已经实现的回归算法包括:线性回归、支持向量回归(SVR)、岭回归、Lasso回归、贝叶斯回归等)
(常见的应用场景:股价预测等。)
聚类:聚类的功能是将相似的对象自动分组。
(sklearn中常用的聚类算法包括:k均值聚类、谱聚类(spectral clustering)、均值漂移(Mean Shift)等)
(常用的应用场景:客户细分、实验结果分组、数据压缩等)
数据降维:数据降维的目的在于减少要考虑的随机变量的数量。
(sklearn中常见的数据降维算法有:主成分分析(PCA)、特征选择、非负矩阵分解等)
(常见的应用场景:数据压缩、模型优化等)
模型选择:模型选择是指评估与验证模型,对模型参数进行选择与平衡。
(sklearn中常见的功能模块:模型度量(metrics)、网格搜索(grid search)、交叉验证(cross validation)等)
(其目的在于:通过调整模型参数来提高模型性能(预测准确度、泛化误差等))
数据预处理:数据预处理的功能在于,把输入数据(如文本、图形图像等)转换为机器学习算法适用的数据,主要包括数据特征的提取和归一化。
(sklearn中常用模块有:数据预处理(preprocessing)、特征抽取(feature extraction)等)

sklearn中常见的数据集

导入数据的函数名称对应的数据集
load_boston()波士顿房价数据集
load_breast_cancer()乳腺癌数据集
load_iris()鸢尾花数据集
load_diabetes()糖尿病数据集
load_digits()手写数字数据集
load_linnerud()体能训练数据集
load_wine()红酒品类数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/568440.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

考研党打印资料怎么使用云打印服务?

对于准备考研的同学们来说,在备考的时候需要准备许多资料,这些资料的打印费用成为了考研党的巨额支出。那么在生活费有限的情况下,考研党打印资料最好是选择云打印服务,因为易绘创云打印服务低至5分钱/页还包邮。那么考研党打印资…

Pytest精通指南(28)钩子函数-测试报告(pytest-html)

文章目录 前言应用场景插件安装参数分析使用方法拓展-定制化报告 前言 在软件开发过程中,测试是确保代码质量的关键环节。 而测试报告则是测试过程中不可或缺的输出物,它为我们提供了关于测试用例执行情况的详细信息,帮助我们快速定位和解决问…

服务器(AIX、Linux、UNIX)性能监视器工具【nmon】使用介绍

目录 ■nmon简介 1.安装 2.使用简介 3.使用(具体使用的例子【CPU】【内存】) 4.采集数据 5.查看log(根据结果,生成报表) 6.分析结果 ■nmon简介 nmon("Nigels performance Monitor"&…

比特币成长的代价

作者:Jeffrey Tucker,作家和总裁。曾就经济、技术、社会哲学和文化等话题广泛发表演讲。编译:秦晋 2017 年之后参与比特币市场的人遇到了与之前的人不同的操作和理想。如今,没有人会太在意之前的事情,说的是 2010-2016…

SL3038 耐压150V恒压芯片 60V降24V 72V降12V降压IC

SL3038 是一款恒压芯片,其耐压值为 150V。这意味着它可以在高达 150V 的电压下工作而不会损坏。现在,让我们来讨论您提到的两个降压应用:从 60V 降到 24V 和从 72V 降到 12V。 1. 60V 降到 24V: 输入电压:60V 输出电…

02 IO口的操作

文章目录 前言一、IO的概念1.IO接口2.IO端口 二、CPU和外设进行数据传输的方法1.程序控制方式1.1 无条件1.2 查询方式 2.中断方式3.DMA方式 一、方法介绍和代码编写1.前置知识2.程序方式1.1 无条件方式1.1.1 打开对应的GPIO口1.1.2 初始化对应的GPIO引脚1.1.2.1 推挽输出1.1.2.…

【Hadoop】-Hive部署[12]

目录 思考 VMware虚拟机部署 规划 步骤1:安装MySQL数据库 步骤2:配置Hadoop 步骤3:下载解压Hive 步骤4:提供MySQL Driver包 步骤5:配置Hive 步骤6:初始化元数据库 步骤7:启动Hive&…

TDSQL同一个所属Set显示3个备份节点

欢迎关注“数据库运维之道”公众号,一起学习数据库技术! 本期将为大家分享《TDSQL同一个所属Set显示3个备份节点》的处置案例。 关键词:分布式数据库、TDSQL、备份节点 1、问题描述 登录赤兔管理平台,单击左侧导航栏“实例管理/集群管理”…

漫谈-AI 时代的信息模型

模型化- 数字化转型的重要基石 在各行各业推行数字化转型过程中,构建信息化模型十分重要,它是数字化转型的基石。事实上,数字化转型的核心是“万物皆模型”,在工业领域,以德国为主导的工业4.0 发展进程中,…

Access denied for user ‘zabbix‘@‘localhost‘ (using password: NO)

现象 排查过程 进入数据库show grants for zabbixlocalhost;select host,user from mysql.user;cat /etc/zabbix/zabbix_server.conf | grep DB | grep -vE ‘#|$’cat /etc/zabbix/web/zabbix.conf.php | grep DB 解决办法 mysql 8.0以下 DPassword123.com mariadb -e "…

java多线程-并发和并行

进程 并发 进程中的线程是由CPU进行调度的,但是CPU能够处理的进程数量有限为了保证所有的线程都在运行,CPU会快速切换,给外界的感觉就是所有的线程都在运行,这就是并发。 并行

【力扣 Hot100 | 第六天】4.21(最长连续序列)

文章目录 10.最长连续序列10.1题目10.2解法:哈希法10.2.1哈希思路10.2.2代码实现 10.最长连续序列 10.1题目 给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。 请你设计并实现时…

php 编译安装oracel扩展

第一步安装Oracle客户端 1,需要下载基础包和sdk oracle客户端下载链接:Oracle Instant Client Downloads for Linux x86-64 (64-bit) https://www.oracle.com/database/technologies/instant-client/linux-x86-64-downloads.html 选择最新版本 versi…

国产PLC有哪些,哪个牌子比较好用?

你知道国产PLC有哪些吗,哪个牌子更好用吗? 今天拿出国产先锋的汇川与台达对比,注:视频后方有各品牌学习资料免费送,需要的移步自取。话说回来,只要基于Codesys开发的都比较好用,只是使用底层芯片不同&…

2013-2021年各省经济韧性相关测度指标面板数据

2013-2021年各省经济韧性相关测度指标面板数据 1、时间:2013-2021年 2、指标:城镇化率 %、财政科学技术支出(亿元)、万人高等教育在校人数(万人)、财政教育支出(亿元)、第三产业占…

AD 21、22 软件安装教程

AD2022安装包链接 链接:https://pan.baidu.com/s/1oMNbXibQ1Zjl0RTLdPDVGw 提取码:xfs4 软件下载 1.以管理员身份运行 2. 3. 4. 5.路径最好改为C盘以外的,如D盘,要新建一个空文件夹 6. 7.下载好以后 8.在Crack文件夹下找…

程序员周末提升计划:朝网络安全工程师转型之路

作为一名软件开发人员,我一直对网络安全充满兴趣,并希望在未来转型成为一名网络安全工程师。面对网络安全领域的挑战和机遇,我制定了一个周末提升计划,希望能系统地增强我的技能并为这一跨界做好准备。下面,我将分享我…

有没有学网络空间安全的学长,想知道学长们毕业以后都去干嘛了?

我作为一个零基础小白到白帽黑客,也认识到了很多零基础小白的,有一些网络空间安全的学员,但是大多数还是非计算机相关专业的学员。他们通过系统学习网络安全,掌握黑客技术之后,都找到了自己满意的工作。 同学A&#x…

软文发稿对于企业的重要性

随着社会的发展和科技的进步,软文发稿已成为企业和个人推广和传播信息的一种非常重要的方式。它以隐性的广告形式,通过内容发布,为品牌广告和产品推广铺设了一条隐形高速公路。下面我们就详细解析一下软文发稿的优点和好处。 软文发稿帮助增…

AutoDL运行SCRFD

pycharm-autodl 1.租服务器 3080ti 镜像:PyTorch 1.10.0 Python 3.8(ubuntu20.04) Cuda 11.3 2.jupyterLab激活conda vim ~/.bashrc在最底部添加 source /root/miniconda3/etc/profile.d/conda.sh重启 bash激活conda conda activate base3.pycharm远程连接aut…
最新文章