【机器学习与实现】机器学习概述

目录

    • 一、机器学习的基本概念和方法
      • (一)基本概念
      • (二)机器学习的一般过程举例
      • (三)样本和参数估计
    • 二、机器学习的步骤总结
      • (一)机器学习的主要步骤
      • (二)样本及样本的划分
      • (三)评估机器学习模型的效果
      • (四)欠拟合、过拟合与泛化能力
    • 三、机器学习的预处理环节
      • (一)数据预处理
      • (二)数据标准化
      • (三)数据的降维
    • 四、机器学习的类型
      • (一)聚类模型、分类模型、回归模型
      • (二)监督学习、无监督学习和半监督学习
    • 五、机器学习的学习路线


人工智能与机器学习、深度学习的关系

机器学习:

  • 是目前实现人工智能的主流方法和技术。
  • 机器学习——数据驱动的人工智能。

在这里插入图片描述

一、机器学习的基本概念和方法

(一)基本概念

从事例中学习(体现数据驱动)—— “事例” 即 “样本”。

  • 统计学:由样本的统计量估计总体的参数。
  • 机器学习:利用训练集进行建模和参数估计,利用测试集进行模型测试。

在这里插入图片描述

(二)机器学习的一般过程举例

问题:让机器(程序)自动识别一个物品是筷子or牙签。(注: 机器开始并没有筷子和牙签的任何知识)

1、第一步:收集一些筷子和牙签的样本。

在这里插入图片描述
2、第二步:特征选择,选择有区分度的特征。

3、第三步:训练模型。

  • 训练(training):从数据中学得模型的过程称为学习(learning)或训练(training),这个过程通过制定某种策略和执行某个学习算法来完成。
  • 训练过程中使用的数据称为训练数据(training data),其中每个样本称为一个训练样(training sample),训练样本组成的集合称为训练集(training set)。

在这里插入图片描述
模型:能否是其他? 例如抛物线所有可能的模型的集合称为假设空间

4、第四步:预测新实例。

  • 学得模型后,使用其进行预测的过程称为测试(testing),被预测的样本称为测试集(testing sample)。
  • 泛化能力(generalization):学得模型适用于新样本的能力。

在这里插入图片描述
机器学习三要素:基于一定策略,通过合适的算法求得模型

  • 模型:考研(江海大or南大)
  • 策略:求稳or更好的前景
  • 算法:内外联动

(三)样本和参数估计

  • 统计学中:样本是用来估计总体的参数。
  • (统计)机器学习中:样本是用来训练模型和估计模型参数的。
  • 对于参数估计来说

在这里插入图片描述

二、机器学习的步骤总结

(一)机器学习的主要步骤

  1. 收集相关样本
  2. 提取特征
  3. 将特征转换为数据(数据标准化)
  4. 训练模型
  5. 使用模型预测新实例

(二)样本及样本的划分

样本分为训练集、验证集和测试集。

在这里插入图片描述

  • 为了防止训练出来的模型只对训练数据有效,一般将训练数据又分为训练集和验证集。

  • 训练集用来训练模型,而验证集一般只用来验证模型的有效性,不参与模型训练。此外,验证集常用于调整模型的超参数。

在这里插入图片描述

(三)评估机器学习模型的效果

  训练模型的最终目的是提高模型在总体(含新样本)上的预测准确率,而不是在已知样本上的预测准确率。

为适应特殊样本而修改分类线为曲线:

在这里插入图片描述
两种分类线的预测准率对比:

在这里插入图片描述
  泛化能力是评价机器学习模型优劣的最根本指标,然而,模型的训练通常以最小化训练误差为标准。对于固定数量的训练样本,随着训练的不断进行,训练误差会不断降低,甚至趋向于零。如果模型训练误差过小,就会使训练出来的模型基本上完全适应于训练样本。

(四)欠拟合、过拟合与泛化能力

1、欠拟合、过拟合示例

  模型在训练样本上产生的误差叫训练误差(training error)。在测试样本上产生的误差叫测试误差(test error)。

在这里插入图片描述
在这里插入图片描述
2、泛化能力与模型复杂度

在这里插入图片描述
  衡量模型好坏的是测试误差,它标志了模型对未知新实例的预测能力,因此一般追求的是测试误差最小的那个模型。模型对新实例的预测能力称为泛化能力,模型在新实例上的误差称为泛化误差。

  能够求解问题的模型往往不只一个。一般来说,只有合适复杂程度的模型才能最好地反映出训练集中蕴含的规律,取得最好的泛化能力。并非使用一个更复杂的模型就会更好

3、奥卡姆剃刀原理——大道至简

  奥卡姆剃刀(Occam’s Razor)原理:如果有两个性能相近的模型, 我们应该选择更简单的模型 ,通常简单的模型泛化能力更好 。

在这里插入图片描述
课程思政:

  • 减少杂念,追求本真
  • 活在当下:在合适的时间做该做的事情
  • 不走极端、过犹不及

4、泛化能力评估方法

——留出法、K-折交叉验证

  将训练数据划分为训练集和验证集的方法称为留出法(holdout method),一般保留已知样本的20%到30%作为验证集。

  K-折交叉验证是将总样本集随机地划分为K个互不相交的子集。对于每个子集,将所有其它样本集作为训练集训练出模型,将该子集作为验证集,并记录验证集每一个样本的预测结果。这个方法将每一个样本都用来进行了验证,其评估的准确性一般要高于留出法。

在这里插入图片描述

三、机器学习的预处理环节

(一)数据预处理

  数据预处理是机器学习中繁琐枯燥但又是很重要的一个阶段。

在这里插入图片描述
为什么要进行数据预处理:

  获取到的原始样本数据往往会存在有缺失值、重复值等问题,在使用之前必须进行数据预处理。

数据预处理之前的样本:

在这里插入图片描述
数据预处理之后的样本:

在这里插入图片描述

(二)数据标准化

对于样本数据来说,首先需要消除特征之间不同量级的影响:

  • 量纲的差异将导致数量级较大的属性占主导地位(例如身高1.75米,体重130斤)。
  • 数量级的差异将导致迭代收敛速度减慢。
  • 依赖于样本距离的算法对于数量级非常敏感。

1、常用的数据标准化方法

  • min-max标准化(归一化):映射到[0,1]区间
    新数据 = (原数据 - 最小值) / (最大值 - 最小值)
  • z-score标准化(规范化):转换成标准正态分布
    新数据 = (原数据 - 均值) / 标准差

在这里插入图片描述
2、标准化和归一化的选择

  • 标准化:样本数据的分布要求服从正态分布。
  • 归一化的缺点:对离群值(outlier)很敏感,因为离群点会影响max或min值;其次,当有新数据加入时,可能导致max和min值发生较大变化。

  而在标准化方法中,新数据加入对标准差和均值的影响并不大。归一化会改变数据的原始距离、分布,使得归一化后的数据分布呈现类圆形。优点是数据归一化后,最优解的寻找过程会变得更平缓,更容易正确地收敛到最优解。

(三)数据的降维

  “维度” 就是指样本集中特征的个数,“降维” 指的是降低特征矩阵中特征的数量。维度灾难会导致分类器出现过拟合。这是因为在样本容量固定时,随着特征数量的增加,单位空间内的样本数量会变少。

在这里插入图片描述
在这里插入图片描述
  数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此,数据比模型更重要。

数据的降维方法:

  主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,它试图找到数据方差最大的方向进行投影。矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。

  假设有五个样本,两个维度的数据,那么这五个样本要从二维降维到一维,就图中的三条虚线,新的维度为哪一条最好?

在这里插入图片描述
  需要分别计算下在新的维度上的投影值,然后计算投影坐标值的方差,方差最大的就是最好的维度
(数据点更容易区分)。

四、机器学习的类型

(一)聚类模型、分类模型、回归模型

  • 聚类(Clustering)模型用于将训练数据按照某种关系划分为多个簇,将关系相近的训练数据分在同一个簇中。
  • 分类(Classification)是机器学习应用中最为广泛的任务,它用于将某个事物判定为属于预先设定的多个类别中的某一个。
  • 回归(Regression)模型预测的不是属于哪一类,而是什么值,可以看作是将分类模型的类别数无限增加,即标签值不再只是几个离散的值了,而是连续的值。

(二)监督学习、无监督学习和半监督学习

  • 监督学习处理的对象是所谓的有标签训练数据,它利用有标签的训练数据来学习一个模型,它的目标是用学到的模型给无标签的测试数据打上标签。
  • 无监督学习的训练数据没有标签,它自动从训练数据中学习知识,建立模型。
  • 半监督学习是监督学习和无监督学习相结合的一种学习方法。

在这里插入图片描述

五、机器学习的学习路线

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/569921.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MyBatis基础操作

黑马程序员JavaWeb开发教程 文章目录 根据资料中提供的《tlias智能学习辅助系统》页面原型及需求,完成员工管理的需求开发一、环境准备1、准备数据库表emp2、创建一个新的springboot工程,选择引入对应的起步依赖(mybatis、mysql驱动、lombok&…

SpringBoot项目启动,传参有哪些方式?

SpringBoot项目启动,传参有哪些方式? 1.Spring级别的参数 直接在启动 Spring Boot 应用的命令行中使用 -- 后跟参数名和值的方式来传递参数。 记住:一般是对于Spring Boot应用特有的配置参数,确保它们遵循Spring Boot的配置属性命…

PC端微信软件如何多开【详细教程】

现在工作中,很多小伙伴会用到两个微信。如何在PC端同时登录多个微信呢?赶快跟着下面的教程学起来吧 1、创建一个txt文本文件 2、输入以下代码并保存 echo offstart "" "复制粘贴微信的目标地址" 需要开几个微信就复制几行exit示例…

顺序表leetcode刷题(C语言版)

一.移除元素 对于本题,共有两种解法: 思路一:创建新的数组,遍历原数组,将不为value的值放到新数组中,但本题不允许使用新的数组,因此该方法不行 思路二:使用快慢指针,原数…

2.5G交换机 TL-SE2109简单开箱评测,8个2.5G电口+1个10G光口(SFP+)

TPLINK(普联)的万兆上联的2.5G网管交换机TL-SE2109简单开箱测评。8个2.5电口,1个万兆SFP口。 TL-SH5428 万兆交换机开箱和简单的评测:https://blog.zeruns.tech/archives/707.html WiFi7无线路由器TL-7DR6560简单开箱测评&#x…

震惊!小红书矩阵账号管理-批量发布笔记

“小红书引流软件矩阵工具-笔记批量发” 昨天,有个粉丝急匆匆地来找我,一脸焦急地说:“大佬,我现在运营着好几个小红书账号,每天都要发布内容,可把我忙坏了,有没有什么高效的管理方法啊&#xf…

开源协议的对比和商业上的安全使用

开源协议的对比和商业上的安全使用 开源组件是:“任何人都可以自由使用、更改和共享(以修改或未修改的形式)的软件”。当今企业依靠开源来加速开发、降低成本和推动创新。对开放源码的糟糕管理可能会使组织面临安全、法律和操作风险。 使用…

Python基础进阶语法

目录: 一、基础语法二、进阶语法 一、基础语法 二、进阶语法 1、列表推导式运用 解析:先循环1到10内的数字,然后过滤大于5的数,赋值到new_list数组中进行打印结果。

重学java 22.面向对象 继承、抽象综合案例

我们纵横交错,最后回到原点 —— 24.4.23 综合案例 流程思维图 代码实现 方式1 利用set方法为属性赋值 父类: public abstract class Development extends Employee{}子类1: public class JavaEE extends Development{Overridepublic void w…

Redis可视化工具RedisInsight

下载地址:RedisInsight - The Best Redis GUIRedisInsight provides an intuitive and efficient graphical interface for Redis, allowing you to interact with your databases and manage your data.https://redis.com/redis-enterprise/redis-insight/#insight…

APP自定义身份证相机(Android +iOS)

基本上同时兼容安卓和苹果的插件都需要付费,这里我找了2个好用的免费插件 1.仅支持安卓:自定义身份证相机(支持蒙版自定义),内置蒙版,照片预览,身份证裁剪 - DCloud 插件市场、 2.支持iOS(已测…

前端CSS基础8(盒子模型(margin、border、padding、content))

前端CSS基础8(盒子模型(margin、border、padding、content)) CSS盒子模型CSS中常用的长度单位元素的分类,各个元素的显示模式修改元素的显示模式(类型)盒子模型的组成部分盒子内容区-contentCSS…

激活虚拟环境.ps1“因为在此系统上禁止运行脚本”解决办法

激活虚拟环境.ps1“因为在此系统上禁止运行脚本”解决办法 1.问题收录 Django激活虚拟环境时遇到的,已解决,作以收录,希望能帮到大家 2.分析问题 核心是Powershell的安全策略,将XX命令视为不安全脚本,不允许执行&…

树莓集团有效链接政、企、校,搭建三方合作平台

树莓集团——数字生态产业链建设者,有效链接政、企、校,搭建三方合作平台。集团旗下树莓教育拥有发展数字影像培训十余年的成都王老师摄影培训学校,一家在数字影像教育领域中独树一帜的专业机构。树莓集团凭借其深厚的教育积淀和丰富的实践经…

单片机通讯协议

参考:江科大单片机教程 STM32入门教程-2023版 细致讲解 中文字幕_哔哩哔哩_bilibili IIC通讯协议SPI通信协议UARTCANUSB速度100k-400khz4Mhz-线数2 CLK,DATA4CLK,ENB,IO,OI额外设备一主多从一主多从 一般不用自己写,都有相应的库或官方提供相应的&#…

Mysql用语句创建表/插入列【示例】

一、 创建表 COMMENT表示字段或列的注释 -- 新建student表 CREATE TABLE student (id BIGINT NOT NULL COMMENT 学生id, enroll_date DATE NOT NULL COMMENT 注册时间, NAME VARCHAR(18) DEFAULT NOT NULL COMMENT 学生姓名, deal_flag TINYINT(1) DEFAULT 0 NOT NULL COMM…

linux开发板开机启动向日葵

硬件:orangepi 5 pro 操作系统:ubuntu 20.4 lts 安装向日葵 根据我的实测,arm架构的ubuntu系统只能安装向日葵提供的麒麟系统的那个版本,具体安装方式官网下载页面有 允许任意用户连接到 X11 使用root用户登录后打开终端输入一下…

数据分析学习资源(未完)

1、PDF 数据分析自学攻略 增长黑客(AARRR) 量化思维

Centos7升级编译器

Centos7默认编译器版本: gcc5.1之前的编译器,默认是C98标准的,若是编译一些支持C高版本的软件时,难免会出现问题。例如:编译最新版jsoncpp,会有如下问题:(原因是:std在C9…

从阿里云迁移Redis到AWS的规划和前期准备

在将Redis实例从阿里云迁移到AWS之前,需要进行全面的规划和前期准备。以下九河云提供一些重要的步骤和注意事项: 1. 评估Redis使用情况 首先,您需要评估当前Redis实例的使用情况,包括实例规格、内存使用量、吞吐量、访问模式等。这将有助于选择合适的AWS Redis产品和实例类型…