机器学习——绪论总结

目录

一、引入

二、基本术语

三、假设空间与归纳偏

四、模型选择


一、引入

        机器学习:通过计算手段,得出具有能够自我修改、完善能力的模型,利用经验改善系统自身性能。算法使用数据得到模型的过程即称为学习,或训练

        流程:根据输入数据,通过算法得到预测模型,对目标进行预测

        模型类别:分为有监督学习和无监督学习,其中有监督学习主要有分类和回归,无监督学习有如聚类等。关于有监督学习和无监督学习可见另一篇文章        

机器学习:什么是监督学习和无监督学习-CSDN博客

        得到模型之后即可进行预测,会有用于测试测试样本

二、基本术语

        以例子的方式理解一些主要的术语,现有一个问题:如何判断一个西瓜是否是好瓜。取100个西瓜进行研究,则

        数据集:这100个西瓜通过量来表示,即可视为数据集,数据集可分为训练集和测试集

                训练集:训练的过程使用的数据集。

                测试集:进行预测或测试使用的数据集。

        一般机器学习的任务是希望通过对训练集进行学习,建立一个从输入x到输出y的映射——f:X->Y。在学到模型 f 后,对测试集进行测试,看这个模型训练的精度能够达到多少。

        样本:取其中部分西瓜进行研究,可称为样本

        属性:又称特征,描述事物在某个方面的具体表现,常常在数据中的表现形式为数据集的某一列,一个特征表示一列数据。

        属性值:又称特征值,表示某样本在该属性上的具体取值,比如西瓜的体积是 60cm³ 。这个“60cm³ ”在此处即是西瓜大小这一属性的取值

        维度:用于表示特征的多少,如上面三个特征就是三维

        属性空间:又称样本空间,属性张成的空间。是属性的所有可能取值组成的集合,如果属性是多维度的,则属性空间是多维度的集合。

        例:只有一个属性,在该属性上的所有可能取值组成的集合 [1,2,3,...] 构成一维属性空间,若有多个维度,如一个人的年龄,身高,体重构成一个属性空间为三维[[1,2,3,...],[171,181,182,...],[140,152,110,...]]

        特征向量:使用西瓜三个特征——色泽,根蒂,敲声三个属性,作为三个坐标轴,每个西瓜对应一个空间点(一个原点指向该点的坐标向量),每个这种示例称为一个特征向量。

        泛化能力:算法对于未见过的新数据的预测能力

三、假设空间与归纳偏

        假设空间:由于机器学习是学习得到由输入到输出的映射(或模型),对于所有属性的所有取值会构成假设空间。如好西瓜问题的假设空间由“(色泽=XXX)^(根蒂=XXX)^(敲声=XXX)”中所有可能的取值假设构成。

        版本空间:在过程中可以有许多策略对假设空间进行搜索,例如自顶向下、从一般到特殊,不断删除和正例不一致的假设、和与反例一致的假设,最终将会获得与训练集相匹配(即所有训练样本基本都能够判断正确)的假设,这些假设构成版本空间。

        如上述假设空间中,满足“是好西瓜”的特征的假设构成版本空间

        归纳偏好:假如现在版本空间中有三个与训练集相匹配的假设,但是对应的模型在遇到一个新问题时可能会产生不同的预测结果。那么,应该如何选择?这时,学习算法本身的“偏好”就会起到决定性作用。机器学习算法在学习过程中对某种类型假设的偏好,称为:“归纳偏好”。简单来说就是对哪一个特征或模型更相信,可看作学习算法本身在一个有可能很庞大的假设空间中的“价值观”。

        关于这几个概念可以看一下这个例子:

西瓜书《机器学习》阅读笔记1——Chapter1_假设空间_机器学习周志华,西瓜问题假设空间微为65怎么计算的-CSDN博客

        如何来引导算法树立正确的偏好,或者说如何选择合适的模型呢

四、模型选择

        两个重要原则:

        原理1:奥卡姆剃刀:如无必要,勿增实体。即若有多个假设与研究结果一致,选择最简单的

        原理2:NFL原理(没有免费午餐原理):若学习算法 A 在某些问题上比学习算法 B 要好,那么必然存在另一些问题,在这些问题中比 A 表现更好。原理之类的感兴趣朋友可以看看↓

机器学习周志华--没有免费的午餐定理_机器学习的没有免费的午餐的公式证明-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/367467.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

前端JavaScript篇之对 rest 参数的理解、ES6中模板语法与字符串处理

目录 对 rest 参数的理解ES6中模板语法与字符串处理 对 rest 参数的理解 rest参数是一种在函数定义中使用的特殊语法,它允许函数接受任意数量的参数,并将它们收集到一个数组中。通俗地说,rest参数就像是一个容器,用来存放函数接收…

cnpm : 无法加载文件 C:\Users\xxx\AppData\Roaming\npm\cnpm.ps1

cnpm命令被禁止使用 我已经安装cnpm ,但是使用不了,重新安装也没用。 报错如下图: cnpm无法使用报错 解决问题 1、打开系统Windows PowerShell,使用管理员身份运行。 打开Windows PowerShell 2、输入set-ExecutionPolicy RemoteSigned&a…

深度学习:数据驱动的人工智能革命

文章目录 每日一句正能量前言什么是深度学习推动AI发展不同阶段的“三大驱动 ”1、技术驱动:算法和计算力是主要驱动力2、计算力的三驾马车:芯片、超级计算机、云计算3、数据驱动:描绘个性化画像; 后记 每日一句正能量 一般青年的…

Java数组的遍历

目录 数组的遍历使用for循环遍历数组使用for-each循环遍历数组使用while循环和迭代器遍历数组使用Java 8的流API遍历数组 数组遍历的应用求数组中的最大值查询数组中指定位置的元素将查指定元素对应的索引的功能提取为方法添加数组元素删除数组元素 数组的遍历 Java数组的遍历…

Day17、18、19学习记录

#c语言知识 内存管理 1.作用域 (1)代码块作用域(代码块是{}之间的一段代码) (2)函数作用域 (3)文件作用域 2.局部变量(自动变量auto): 在函…

Matlab plot绘图的 title 语法

x 0:1:10; >> y x.^2 -10*x15; >> plot(x,y) >> title(x_y, interpreter, none) title 里面的 x_y , y不会被当作下标。

软件工程(最简式总结)

目录 第一章:概述 1.软件危机的表现原因 2.常见的软件开发方法包括: 3.软件工程基本原则 4.软件工程三要素 5.设计模式的分类 6.针对变换型数据流设计步骤 7.针对事务型数据流设计步骤 第二章:软件过程 1.软件生命周期 2.软件过程模型 &…

数据结构篇-05:哈希表解决字母异位词分组

本文对应力扣高频100 ——49、字母异位词分组 哈希表最大的特点就是它可以把搜索元素的时间复杂度降到O(1)。这一题就是要我们找到 “字母异位词” 并把它们放在一起。 “字母异位词”就是同一个单词中字母的不同组合形式。判断“字母异位词”有两个视角:1、所含字…

《计算机网络简易速速上手小册》第1章:计算机网络技术基础(2024 最新版)

文章目录 1.1 OSI 模型简介 - 深入探究1.1.1 基础知识1.1.2 重点案例:构建简易 HTTP 服务器1.1.3 拓展案例1:网络层数据包捕获1.1.4 拓展案例2:传输层 TCP 连接 1.2 TCP/IP 协议栈 - 深入探究1.2.1 基础知识1.2.2 重点案例:使用 P…

2.3作业 编写一个shell 脚本,判断输入的是否是数字

#!/bin/bashvar$1 len${#var} j0 for(($j;$j<$len;((j)))) doif [ ${var:$j:1} -eq 0 ]then echo "第$j位数字是0"elif [ ${var:$j:1 } -eq 1 ]then echo "第$j位数字是1"elif [ ${var:$j:1} -eq 2 ]then echo "第$j位数字是2"elif [ ${var:$…

【Linux】理解系统中一个被打开的文件

文件系统 前言一、C语言文件接口二、系统文件接口三、文件描述符四、struct file 对象五、stdin、stdout、stderr六、文件描述符的分配规则七、重定向1. 重定向的原理2. dup23. 重谈 stderr 八、缓冲区1. 缓冲区基础2. 深入理解缓冲区3. 用户缓冲区和内核缓冲区4. FILE 前言 首…

题目: 有1234个数字, 组成多个互不相同且无重复数字的三位数? 都是多少?

lua脚本如下 最原始的解题方法 local str{} local i, j, k0, 0, 0 for i1, 4 do for j1, 4 do for k1, 4 do if i~j and i~k and j~k then str[#str1]i..j..k end end end end print("组成的数有"..#str) print(table.unpack(str)) 运行的结果如下 组成的数有24 1…

【DDD】学习笔记-代码模型的架构决策

代码模型属于软件架构的一部分&#xff0c;它是设计模型的进化与实现&#xff0c;体现出了代码模块&#xff08;包&#xff09;的结构层次。在架构视图中&#xff0c;代码模型甚至会作为其中的一个视图&#xff0c;通过它来展现模块的划分&#xff0c;并定义运行时实体与执行视…

跨平台开发:浅析uni-app及其他主流APP开发方式

随着智能手机的普及&#xff0c;移动应用程序&#xff08;APP&#xff09;的需求不断增长。开发一款优秀的APP&#xff0c;不仅需要考虑功能和用户体验&#xff0c;还需要选择一种适合的开发方式。随着技术的发展&#xff0c;目前有多种主流的APP开发方式可供选择&#xff0c;其…

【HTML 基础】框架 iframe 标签

文章目录 1. 基本用法2. 设置框架样式3. frameborder 和 scrolling 属性4. 在框架中显示其他内容5. 响应式框架6. 注意事项结语 在 Web 开发中&#xff0c;有时候我们需要在页面中嵌套其他网页或内容&#xff0c;这时候就可以使用 HTML 的框架标签之一<iframe>。<ifra…

20240202在WIN10下使用fast whisper缺少cudnn_ops_infer64_8.dll

20240202在WIN10下使用fast whisper缺少cudnn_ops_infer64_8.dll 2024/2/2 10:48 https://blog.csdn.net/feinifi/article/details/132548556 Could not locate cudnn_ops_infer64_8.dll. Please make sure it is in your library path!解决办法 安装cuDNN c:\faster-whisper-…

【MybatisPlus篇】查询条件设置(范围匹配 | 模糊匹配 | 空判定 | 包含性判定 | 分组 | 排序)

文章目录 &#x1f384;环境准备⭐导入依赖⭐写入User类⭐配置启动类⭐创建UserDao 的 MyBatis Mapper 接口&#xff0c;用于定义数据库访问操作⭐创建配置文件&#x1f6f8;创建测试类MpATest.java &#x1f354;范围查询⭐eq⭐between⭐gt &#x1f354;模糊匹配⭐like &…

MySQL的ACID、死锁、MVCC问题

1 ACID ACID代表原子性&#xff08;atomicity&#xff09;、一致性&#xff08;consistency&#xff09;、隔离性&#xff08;isolation&#xff09;和持久性&#xff08;durability&#xff09;。一个确保数据安全的事务处理系统&#xff0c;必须满足这些密切相关的标准。 原…

三、数据背后的二进制

文章目录 数据背后的二进制1.1 整数的二进制表示与位运算1.1.1 正整数的二进制表示1.1.2 负整数的二进制表示 1.2 原码、反码、补码1.2.1 机器数和机器数的真值1.2.2 原码, 反码, 补码的基础概念和计算方法1.2.3 为何要使用原码、反码和补码1.2.4 补码计算原理 1.3 小数的二进制…

android 网络拦截器统一处理请求参数和返回值加解密实现

前言 项目中遇到参数加密和返回结果加密的业务 这里写一下实现 一来加深记忆 二来为以后参考铺垫 需求 项目在开发中涉及到 登陆 发验证码 认证 等前期准备接口 这些接口需要单独处理 比如不加密 或者有其他的业务需求 剩下的是登陆成功以后的业务需求接口 针对入参和返回值…
最新文章