机器学习——过拟合问题、正则化解决法

过拟合的基本概念

欠拟合:假设函数没有很好的拟合训练集数据,也称这个假设函数有高偏差;

过拟合:过拟合也称为高方差。在假设函数中添加高阶多项式,让假设函数几乎能完美的拟合每个样本数据点,这看起来很好,但这可能会造成函数太过庞大,变量太多的问题,我们没有足够的数据约束它,以获得一个很好的假设函数。也就是说,有可能因为训练集数据量不够,导致训练出来的模型不够精确,即在训练集现有的数据中,模型可以完美的拟合每个数据,但是一旦加入一个新的数据,该模型就不能很好的拟合。过度拟合的问题会在变量过多的时候出现。

过拟合问题会导致模型的泛化能力差,所谓泛化,就是一个假设模型应用到新样本的能力

线性回归过拟合的例子

逻辑回归(logistic)过拟合的例子

过拟合问题的解决办法

  • 第一种是尽量少的选择特征变量,在能解决问题的前提下,选择的特征变量越少越好,舍弃掉没有用的,或者关系不大的。可以人工进行筛选,也可以通过后面的模型选择中自动选择特征变脸
  • 第二种是正则化,保留所有的特征变量,但是减少量级或参数θj的大小,这种方法很有用,因为有些时候我们希望保留所有特征变量(因为它们都蕴含了一定的信息),此时就可以用到正则化

正则化

基本思想

 如下图,给θ3和θ4增加惩罚项,下面右图中的粉红色曲线,就是最终得到的二次项的代价函数

 如果将所有参数θ都增加一个惩罚项,就相当于尽量去简化假设模型(即假设函数),因为这些参数都接近0时,原有的假设函数会变得简单一点,如上面的例子,当θ3和θ4接近于0时,由原来的三次项函数得到一个二次项函数。总之,参数的值越小,得到的函数就会越平滑,也越简单,因此,更不容易出现过拟合的问题

个人理解:从例子中可以看出,我们所缩小的参数θ3和θ4,是特征变量x3和x4的系数,而x3和x4刚好是高阶项,说明这两个变量对问题答案的影响度较低,而让θ3和θ4的值尽量小从而去尽量弱化它们甚至消掉它们(θ3和θ4为0时),其实也可以看做是在减少选取的特征变量,但是毕竟θ3和θ4只是约为0,所以x3和x4还是存在的,也就是保留了所有的特征变量,从而保留了它们蕴含的信息

基本概念

 正则化参数λ的作用:控制两个目标之间的平衡关系,第一个目标就是更好的去拟合训练集数据;第二个目标就是将所有参数θ控制的更小从而使假设模型相对简单,避免出现过拟合的情况的目标。

如果正则化参数λ被设的太大,结果就是对所有的θ参数惩罚太大,换句话就是让所有θ参数都接近为0,而此时假设函数的所有特征变量xi就会被消掉,最后只剩下一个θ0x0,这两个还都是我们自定义的,最后的结果就是假设函数只剩下一个常数值,函数图像为一条水平线,很显然,这时候就是欠拟合的状态。所以应该选择一个合适的λ值,具体的选择方法在下面内容中会说到

图中的蓝色图像是用高阶多项式来拟合出现的过拟合情况,如果还想保留所有特征的高阶项,只需要利用正则化后的代价函数(如上图中J(θ)),就可以得到粉红色的函数图像,这个粉红色曲线不是二次函数,但是相对蓝色来说更平滑、更简单,粉红色的函数对数据给出了一个更好的假设模型

线性回归的正则化

梯度下降法

 绿色框部分,也就是把θj往0的方向缩小了一点点

正规方程法

建立一个m*(n+1)维的设计矩阵X,X矩阵中的每一行代表了一个单独的训练样本

建立一个m维的向量y,它包含了训练集里的所有标签

 上面正规方程推导不简单,所以我选择记住结果

logistic回归(逻辑回归)的正则化

逻辑回归中的过拟合问题(上面一开始说的是线性回归中的过拟合)

梯度下降法

 更高级优化算法最小化代价函数

看视频后半部分 → 更高级优化算法最小化代价函数

今天发现一个宝藏网站!!!里面有很多关于AI的教程,包括正在看的这个视频的笔记,后面不自己记了,太费时间了!!!

AI学习教程网站

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/453364.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JSONObject在Android Main方法中无法实例化问题

目录 前言一、Main(非安卓环境)方法下运行二、安卓坏境下运行三、why? 前言 原生的json,即org.json.JSONObject; 在Android Studio中的Main方法里运行报错,但在安卓程序运行过程正常 一、Main(非安卓环境)方法下运行 static void test() {try {// 创建一个 JSON …

idea远程服务器debug

前提 本地代码和服务器代码一致 idea中创建远程服务 一般只需要修改ip,注意这边的端口是监听Socket的端口,不是服务的端口 然后把运行参数复制一下 -agentlib:jdwptransportdt_socket,servery,suspendn,address5005 tomcat启动 在tomcat的lib下的c…

爬虫案例2:playwright 超爽体验

参考链接:https://playwright.bootcss.com/python/docs/intro 目标网站:https://spa6.scrape.center/通过观察,页面的信息是通过Ajax请求后返回的信息 下面使用playwright实现绕过token的获取直接拿到返回的数据import asyncio import json f…

【相关问题解答2】bert中文文本摘要代码:结果输出为一些重复的标点符号和数字

【相关问题解答2】bert中文文本摘要代码 写在最前面问题1:tokenizer.py中encode函数,不能使用lower操作关于提问问题描述1一些建议1问题更新2:结果输出为一些重复的标点符号和数字一些建议21. 数据检查和预处理2. 模型和训练配置3. 过拟合和欠…

罐头鱼AI短视频矩阵获客|AI视频批量生成

罐头鱼AI传单功能操作说明,智能化提升您的视频营销效率! 在这个信息爆炸的时代,短视频已成为企业营销的重要方式之一。而为了更高效地进行视频营销,罐头鱼AI传单功能应运而生,为您提供全方位的视频管理和发布服务。 首…

华为车控面试前后

个人经历: 秋招未接受其他公司offer,all in华子。 ->秋招失败0 offer 年前被车bu捞后入池开始审批。 ->等待超过1个月,陷入煎熬。 ->终于等到意向书。 分享时间线: 10月 笔试和3面入池2012 1月 收到车bu捞人电话解…

【OpenGL手册13】 光照贴图

目录 一、说明二、漫反射贴图三、镜面光贴图四、采样镜面光贴图练习 一、说明 在上一节中,我们讨论了让每个物体都拥有自己独特的材质从而对光照做出不同的反应的方法。这样子能够很容易在一个光照的场景中给每个物体一个独特的外观,但是这仍不能对一个…

10、设计模式之外观模式(Facade)

一、什么是外观模式 这个大家一定是经常使用的,外观模式(门面模式)是一种结构型设计模式。它提供一个统一的接口,用于访问子系统中的一组接口,隐藏了系统的复杂性。最简单的应用就是,当controller层的逻辑处…

ArcGIS JSAPI 学习教程 - ArcGIS Maps SDK for JavaScript 不同版本4.8-4.28(最新版)离线部署

ArcGIS JSAPI 学习教程 - ArcGIS Maps SDK for JavaScript 不同版本4.8-4.28(最新版)SDK离线部署 测试资源4.18 以及之前版本4.19 以及之后版本 接触一段时间 ArcGIS JSAPI 之后,整体感觉还好,后来需要解决不同版本问题&#xff0…

php apache 后台超时设置

最近在写一个thinkphp项目的时候,发现Ajax从后端请求数据时间比较长,大概需要45秒左右,但是一旦请求时间超过40s,页面就会超时500了,一开始以为是ajax请求时间不能太长,后来将Ajax请求改为同步且timeout设置…

休闲食品类目电商数据分析

食品的受众群里非常高,所以各品牌竞争也非常大,休闲食品作为人们闲余品味之物,也包揽了各大电商平台的主要流量,随着经济水平的提升,休闲食品类目的销售也随之不断增加,下面我们结合一些数据,去…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的商品识别系统(深度学习+UI界面+训练数据集+Python代码)

摘要:在零售行业的技术进步中,开发商品识别系统扮演着关键角色。本博文详细阐述了如何利用深度学习技术搭建一个高效的商品识别系统,并分享了一套完整的代码实现。系统采用了性能强劲的YOLOv8算法,同时对YOLOv7、YOLOv6、YOLOv5等…

web项目抢购模块测试

web项目抢购模块测试 抢购模块(先测后台,再测前台)流程抢购用例编写测试点--后台抢购用例编写测试点--前台用例设计 面试题1: 当你发现研发实现的结果与需求不一致时怎么办? 需求评审的时候:需要确认所有输入类型的校验是针对单独的输入框做的还是在最终提交时校验 抢购模块 需…

深入挖掘C语言之——联合

目录 联合的定义 联合的特点 联合的应用场景 在C语言中,联合(Union)是一种特殊的数据结构,它允许在同一内存地址存储不同类型的数据。与结构体(Struct)不同的是,联合中的所有成员共享同一块内…

算法(结合算法图解)

算法简介简单查找二分查找法 选择排序内存的工作原理数组和链表数组选择排序小结 递归小梗 要想学会递归,首先要学会递归。 递归的基线条件和递归条件递归和栈小结 快速排序分而治之快速排序合并排序时间复杂度的平均情况和最糟情况小结 散列表散列函数缓冲小结性能…

科研三维模型高精度三维扫描服务3d逆向测绘建模工业产品抄数设计

三维抄数技术在科研三维模型的应用已经日益广泛,其高精度、高效率的特点使得科研工作者能够更快速、更准确地获取和分析数据。这一技术的核心在于通过专业的三维扫描仪对实物进行高精度测量,再将这些数据转化为三维数字模型,为后续的研究提供…

深入浅出计算机网络 day.2 概论⑤ 计算机网络的性能指标

请等一等, 用一个完整的春天 捣碎麦田 —— 24.3.10 一、计算机网络的性能指标 上 计算机网络的性能指标被用来从不同方面度量计算机网络的性能 常用的八个计算机网络性能指标 速率 比特(bit)是计算机中数据量的基本单位,一个比特…

智能商品管理系统:驱动零售盈利型的数据利器

在数字化浪潮席卷全球的今天,零售业正面临着前所未有的变革。智能商品管理系统作为零售业的“数据利器”,正在以其强大的数据分析能力和智能化的管理手段,助力零售企业实现盈利增长和业务创新。 智能商品管理系统通过集成大数据、云计算、人…

MySQL教程-安装与卸载

MySQL官网 https://www.mysql.com MySQL 官方提供了两种不同的版本: 社区版 MySQL Community Server,免费,但不提供任何技术支持商业版 MySQL Enterprise Server,收费,官方可提供技术支持 本教程采用MySQL的社区版作…
最新文章