主动学习与弱监督学习

人工智能数据的获取没有想象中的那么简单,虽然我们早已身处大数据的浪潮下,很多公司在获取数据的大浪中翻滚却始终没有找到一个合适的获取数据的渠道。很多情况下,获取高质量的人工智能数据需要消耗大量的人力、时间、金钱,但是对于未来世界,以“人机协同”的方式为生活创造价值早已成为一个必然的趋势。 试想一下用这些数据来训练一个有监督的机器学习(ML)算法怎么样?ML算法可以执行与人类相同的分类任务,只是速度快得多!它可以减少成本和低效率。它可以减少成本和低效率。它可以在你的混合数据上工作,如图像、文本文件,以及简单的数字。它可以做所有这些事情,如果你的模型够好,你真的可以为所欲为。但是,要想获取这些数据,你要付出巨大的代价。不过我们总是能找到解决方案,如果你发现了一个“主动学习”的机器学习技术,或许如何获取大量数据也不会让你望而却步。

两种流行机器学习技术的比较

机器学习(ML)领域的发展已呈指数级增长,但对于许多企业而言,获取数据仍然是一项艰巨的任务。传统的机器学习算法需要大量人工标注数据。所需的庞大数据通常无法大规模获取,且成本高昂,更不用说手动标注数据所需的时间和精力。成品数据又达不到理想的质量标准。主动学习与弱监督学习:利用这两种出色的机器学习技术克服数据挑战。 标注数据还需要人工标注员。许多情况下,这些标注员在某种程度上是行业专家(SME),他们可以使用他们业内的专业知识进行准确标注。但SME 的可用性有限,而且雇用成本高昂。 考虑到这些挑战,开发人工智能(AI)解决方案的团队从完全监督式学习(需要完整的手动标注数据集训练ML模型)转向主动学习和弱监督学习。后者通常更快,人力成本更低,同时仍能够成功训练模型。了解不同学习技术的工作原理和优势,能够帮助团队决定弱监督学习或主动学习(或两者结合)是否是训练机器模型的合适解决方案。

主动学习与弱监督学习:如何适应监督式学习

首先我们要清楚地知道,在机器学习中存在不同的学习类型,所有这些学习类型均可归为这两大类中的一种:监督学习和无监督学习。在监督学习中,机器接收由人工标注的数据点,并使用这些数据点进行预测。另一方面,无监督学习使用未标注数据;算法必须在没有人工指导的情况下从数据中提取结构和模式。 监督学习还可细分为一系列学习类型。其中就包括主动学习(半监督学习的一种形式)和弱监督学习。

主动学习

主动学习是半监督学习的一种形式。与完全监督学习不同的是,这种学习形式仅从较大规模的未标注数据集中为机器学习算法提供人工标注数据的初始子集。算法对这些数据进行处理,并提供具有一定置信度的预测。低于该置信度水平的任何预测均将表明需要更多的数据。这些低置信度的预测将被发送给标注人员,以标注请求数据的算法。循环重复,直到算法经过训练,并在预期的预测精度下正常运行。 这种迭代的人机协同方法是建立在并非所有样本均有学习价值的基础之上,因此算法会选择所学习的数据。 主动学习的一个关键差异因素是所使用的采样方法,该方法强烈影响着模型的表现方式。数据科学家可以测试不同的采样方法,来选择产生最精确结果的方法。总体而言,与完全监督学习相比,主动学习对人工数据标注的依赖程度较低,因为并非所有数据集都需要标注,仅机器要求的数据点才需标注。

弱监督学习

弱监督学习是一种学习技术,融合了来自各种数据源的知识,其中许多数据源质量较低。这些数据源可能包括:

  • 低成本来自非专业人士的低质量标注数据。
  • 来自SME的高级监督,例如,使用启发法(规则)。启发法可能会这样表述,“如果数据点 = x,则将其标注为 y”。使用一种或一套启发法可以立即标注成千上万,甚至上百万的数据点。
  • 预先训练的旧模型,可能有偏见或有噪声。

这些数据源中的数据通常不精确(数据有标签,但标签并不像期望的那样准确)或不准确(部分标签有错误)。你可以对模型进行编程,以使用简单的技术或标注功能(如模式识别)从收集的数据集中学习。然后,通过调整特征和超参数获得更理想的权重,直到模型达到所需的性能。可根据需要纳入规模较小的监督数据集以完成模型的训练。 弱监督学习是一种编程训练数据的方法,其目的是减少人工手动标注数据所需的时间。当有未标注的数据集需要管理时,或当应用场景明确允许使用弱标签源时,这种方法最适合分类任务。 到这里你大概知道利用主动学习如何能更有效的获取人工智能数据了,如何大量的标记数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/243749.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【移动通讯】【MIMO】[P1]【科普篇】

前言: 前面几个月把CA 的技术总体复盘了一下,下面一段时间 主要结合各国一些MIMO 技术的文档,复盘一下MIMO. 这篇主要参考华为: info.support.huawei.com MIMO 技术使用多天线发送和接受信号。主要应用在WIFI 手机通讯等领域. 这种技术提高了系统容量&…

mysql的负向条件查询会不会使用索引

mysql的负向条件查询,例如not in,会不会使用索引? 其实,mysql还是会尽量利用索引。如果查询的列上有索引,并且索引能够覆盖查询所需的列,那么mysql可能会使用索引来获取结果,而不是进行全表扫描…

解决设备能耗管理问题,易点易动来帮忙!

设备能耗管理是现代企业可持续发展的重要环节,然而,许多企业在设备能耗管理方面面临一系列问题: 能耗数据收集困难:企业需要监控和管理大量设备的能耗情况,但传统的手动方式收集能耗数据耗时耗力,无法实时获…

C语言-WIN32API介绍

Windows API 从第一个32位的Windows开始就出现了,就叫做Win32API.它是一个纯C的函数库,就和C标准库一样,使你可以写Windows应用程序过去很多Windows程序是用这个方式做出来的 main()? main()成为C语言的入口函数其实和C语言本身无关&…

Java中常见需要重写equals方法的类

目录 导言 一、自定义类 二、集合类 三、字符串类 四、数组类 五、枚举类 结论 导言 在Java编程中,equals方法是用来比较两个对象是否相等的关键方法之一。然而,在某些情况下,Java提供的默认equals方法可能无法满足我们的需求。因此&a…

《地理信息系统原理》笔记/期末复习资料(11. GIS的输出与地图可视化)

目录 11. GIS的输出与地图可视化 11.1. GIS的输出 11.1.1. 输出方式 11.1.2. GIS的图形输出设备 11.2. 地图符号 11.2.1. 地图符号的实质 11.2.2. 地图符号的分类 11.2.3. 地图符号的设计要求 11.3. 专题信息表达 11.3.1. 专题地图的基本概念 11.3.2. 专题地图的表示…

Esxi虚拟机无法添加加密狗处理

原创作者:运维工程师 谢晋 Esxi虚拟机无法添加加密狗处理 前提纪要添加直通模式 前提纪要 客户将加密狗插在Esxi主机上,并给虚拟机添加USB控制器再添加加密狗设备,但添加时候报错无法识别加密狗(如下图)&#xff0…

一个文件下png,jpg,jpeg,bmp,xml,json,txt文件名称排序命名

#utf-8 #authors 会飞的渔WZH #time:2023-12-13 import os# 要修改的图像所在的文件夹路径 root_path rD:\images\lines2\3 # 要修改的图像所在的文件夹路径filelist os.listdir(root_path) #遍历文件夹 print(len(filelist)) i0for item in filelist:if item.endswith(.…

HarmonyOS应用开发初体验

9月25日华为秋季全场景新品发布会上,余承东宣布,全面启动鸿蒙原生应用,HarmonyOS NEXT开发者预览版将在2024年第一季度面向开发者开放。 最近鸿蒙开发可谓是火得一塌糊涂,各大培训平台都开设了鸿蒙开发课程。美团发布了鸿蒙高级工…

_try_finally原理探究后续

入口程序的最后一道防线 这里调用mainCRTStartup(),然后调用入口程序 相当于这里才是一个进程开始执行的地方 这里有一个call调用,跟进去看看 发现有修改fs:[0]的操作,这里就相当于编译器为我们注册了一个异常处理函数 这里到kernel32.dll里面…

OpenCV-Python16:图像平滑操作

目录 图像平滑基础 本文目标 2D卷积 图像模糊(图像平滑) 平均模糊 高斯模糊 中值模糊 双边滤波 图像平滑基础 在尽量保留图像原有信息的情况下,过滤掉图像内部的噪声,这一过程称为对图像的平滑处理,所得的图像…

leetcode--3. 无重复字符的最长子串[滑动窗口\哈希表 c++]

原题 : 3. 无重复字符的最长子串 - 力扣(LeetCode) 题目解析: 最长子串可以用滑动窗口解决,无重复字符可以使用哈希表解决。 算法原理: 滑动窗口哈希表 哈希表作为一个数组存放每个字符出现的次数。 …

C#云LIS系统源码 B/S架构,SaaS模式,可扩展性强

基于B/S架构的云LIS检验系统源码,整个系统的运行基于WEB层面,只需要在对应的工作台安装一个浏览器软件有外网即可访问。全套系统采用云部署模式,部署一套可支持多家医院检验科共同使用。 采用.Net Core新的技术框架、DEV报表、前端js封装、分…

数学learning

目录 移动平均 简单移动平均 加权移动平均 指数移动平均 矩阵求导 矩阵对标量求导 Matrix-by-scalar 标量对矩阵求导 Scalar-by-matrix 参考博客 移动平均 优化算法里面会涉及到一个知识点:指数移动平均。 但是为了知识的完整性,这里会将常见的移动…

【Mars3d】关于locationBar等控件的css样式冲突处理问题

【Mars3d】关于locationBar等控件的css样式冲突处理问题 问题场景: 1.通过代码加载new mars3d.control.Zoom(或者通过地球map初始化配置 option.control {加载放大缩小工具控件的时候,出现图标的样式冲突效果: 2.sceneModePicker&#xf…

jsp 学科竞赛成绩管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 JSP 学科竞赛成绩管理系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发,数据库为Mysq…

Spring Boot统一功能处理(Spring拦截器)

为什么需要Spring拦截器 原生的Spring AOP实现统一拦截有两大难点,1.定义拦截的规则难写;2.在切面类中拿到HttpSession比较难。为此Spring官方提供了拦截器帮我们解决了上面痛点。 实现登入信息验证拦截器 实现HanderInterceptor接口重写preHeadler方…

Python创建代理IP池详细教程

一、问题背景 在进行网络爬虫或数据采集时,经常会遇到目标网站对频繁访问的IP进行封禁的情况,为了规避这种封禁,我们需要使用代理IP来隐藏真实IP地址,从而实现对目标网站的持续访问。 二、代理IP池的基本概念 代理IP池是一个包…

微服务——服务保护Sentinel

雪崩问题 在单体项目里面,如果某一个模块出问题会导致整个项目都有问题。 在微服务项目里面,单独一个服务出问题理论上是不会影响别的服务的。 但是如果有别的业务需要调用这一个模块的话还是会有问题。 问题产生原因和解决思路 最初那只是一个小小…

ubuntu创建apt-mirror本地仓库

首先创建apt-mirror的服务端,也就是存储所有apt-get下载的文件和依赖。大约需要300G,预留400G左右空间就可以开始了。 安装ubuntu省略,用的是ubuntu202204 ubuntu挂载硬盘(不需要的可以跳过): #下载挂载工具 sudo apt…
最新文章