Azure - 自动化机器学习AutoML Azure使用详解

目录

  • 一、AutoML是如何工作的?
  • 二、何时考虑AutoML?
  • 三、AutoML助力训练与集成过程
  • 四、实战案例
  • 五、总结

自动化机器学习,简称为AutoML,旨在将机器学习模型的开发中繁琐且重复的任务自动化。这使得数据科学家、分析师以及开发人员能够构建高度可扩展、高效和高性能的ML模型,且不牺牲模型的质量。Azure 机器学习的AutoML功能是基于Microsoft Research团队的前沿技术而开发的。

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

file

一、AutoML是如何工作的?

在训练阶段,Azure 机器学习启动多个并行管道,分别尝试不同的算法和参数组合。这个服务会不断尝试多种与特征选择相匹配的ML算法,并为每一次迭代产生一个经过评分的模型。当模型的评分更接近优化目标时,该模型便会被认为更“适合”于数据。当满足预定的终止条件时,训练过程便会结束。

要在Azure机器学习中设计并执行一个AutoML训练实验,您可以按照以下步骤进行:

file

  1. 明确您要解决的ML问题类型:如分类、预测、回归、计算机视觉或NLP。

  2. 决定是选择基于代码的体验还是基于Web的无代码体验:

    • 对于偏好代码的用户,可以利用Azure 机器学习 SDKv2 或 Azure 机器学习 CLIv2。例如,有一个教程指导如何使用AutoML与Python来训练物体检测模型。
    • 对于倾向于少量代码或无代码的用户,可以在Azure 机器学习工作室 (https://ml.azure.com) 通过Web界面来操作。例如,有一个教程介绍如何在Azure机器学习中使用AutoML构建分类模型。
  3. 指明训练数据的来源:Azure 机器学习支持多种数据输入方式。

  4. 配置AutoML的参数,包括决定模型迭代的次数、超参数设定、高级的数据预处理/特征生成策略以及用于评估模型优劣的指标。

  5. 提交您的训练任务。

  6. 分析训练结果。

二、何时考虑AutoML?

当您希望通过Azure机器学习来训练和优化模型,特定于多种目标指标时,AutoML是一个理想的选择。它能够规范化机器学习的开发流程,使不同背景的用户都能够有效地解决各种机器学习问题。

AutoML对于以下目的具有明显优势:

  • 为非编程背景的人员提供机器学习解决方案。
  • 节约开发和训练时间。
  • 整合数据科学的最佳实践。
  • 提供多种解决方案以适应不同场景。
  1. 分类:分类是一种监督学习方法,其中模型根据训练数据进行预测,以确定新数据的类别。Azure机器学习提供了专为此类任务设计的特征工程,例如深度神经网络文本特征化工具。分类的目的是基于已有的数据经验,预测新数据的归属类别。例如,手写识别、对象分类等。
    file
  2. 回归:与分类相似,回归也是监督学习中的一种常见方法。但不同于分类的是,回归旨在预测一个连续的输出值,而不是类别标签。例如,根据特定的车辆特性预测汽车价格。
    file
  3. 时序预测:预测未来趋势和模式是各种业务领域中的关键组件。使用AutoML,您可以获得高质量的时序预测。
    file
  4. 计算机视觉:AutoML为计算机视觉任务提供支持,从简单的图像分类到复杂的对象检测和分割都可以应对。您可以利用Azure机器学习的强大功能,如大规模操作、模型部署和集成。
    file
  5. 自然语言处理(NLP):AutoML在NLP任务中同样展现出卓越的能力。无论是文本分类还是命名实体识别,通过Azure机器学习的Python SDK,您都可以轻松地实现NLP模型的自动化训练。
    file
    总之,无论您是ML专家、开发人员,还是来自其他背景的用户,AutoML都可以为您提供有效、高效的机器学习解决方案。

三、AutoML助力训练与集成过程

训练数据
借助自动化机器学习(AutoML),您可以提交训练数据以构建模型,并指定执行的模型验证方式。在训练过程中,AutoML 通过使用验证数据和相应的算法来优化超参数,寻找与训练数据最匹配的模型配置。但由于在优化过程中反复使用相同的验证数据,可能导致模型对此数据产生偏见。为确保最终选择的模型未受此偏见影响,AutoML 允许使用独立的测试数据集进行评估。

特征工程

指的是根据数据领域的知识创造能增强机器学习算法性能的特征。Azure 机器学习提供了一系列缩放和规范化的方法简化这一过程,统称为特征化。在自动机器学习实验中,系统会默认进行特征化,但您也可以根据自己的数据进行调整。此外,还支持其他特征工程技术,如编码和转换。在Azure机器学习工作室或Python SDK中,都可以选择启用或自定义特征化。

集成模型
在自动化机器学习中也得到了支持。系综学习结合多个模型的优点,通常能获得更好的结果。AutoML 利用投票和堆叠的方法来结合模型。此外,Caruana算法用于决定系综中的模型组合,从而确保系综的性能是最优的。

ONNX格式
Azure 机器学习还允许使用AutoML来创建Python模型并将其转换为ONNX格式,这使得模型能在不同的平台和设备上执行。ONNX还提供了C#运行时,所以您可以直接在C#应用程序中使用生成的模型,这避免了网络延迟等潜在问题。

四、实战案例

实战案例可以参考官方案例:https://learn.microsoft.com/zh-cn/azure/machine-learning/tutorial-first-experiment-automated-ml?view=azureml-api-2

列出核心过程:

  1. 先决条件
  2. 创建工作区
  3. 创建自动化机器学习作业
  4. 创建数据集并将其加载为数据资产
  5. 配置作业
  6. 浏览模型
  7. 模型说明
  8. 部署最佳模型
  9. 清理资源
  10. 后续步骤

部分过程图:
file
file
file
file
file
file

五、总结

自动化机器学习也称为自动化 ML 或 AutoML,是将机器学习模型开发过程中耗时的反复性任务自动化的过程。 数据科学家、分析师和开发人员可以使用它来生成高度可缩放、高效且高产能的 ML 模型,同时保证模型的质量。

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/107854.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java中的volatile关键字

volatile是什么? "volatile"是一个关键字,用于修饰变量。它的作用是告诉编译器该变量可能会在意料之外的时候被修改,因此编译器在对该变量进行优化时需要特别小心。 具体来说,当一个变量被声明为"volatile"…

2023年上半年上午易错题(软件设计师考试)

计算机中,系统总线用于 (1) 连接。 A. 接口和外设 B. 运算器、控制器和寄存器 C. CPU、主存及外设部件 D. DMA控制器和中断控制器 在由高速缓存、主存和硬盘构成的三级存储体系中,CPU执行指令时需要读取数据,那…

C++数据结构X篇_23_快速排序(最快、不稳定的排序)

文章参考十大经典排序算法-快速排序算法详解进行整理补充。快速排序是最快的排序方法。 排序思路:分治法-挖坑填数:大问题分解为各个小问题,对小问题求解,使得大问题得以解决 文章目录 1. 什么是快速排序1.1 概念1.2 算法原理1.3 …

Python 框架学习 Django篇 (六) 数据表关联、ORM关联

在后端服务器开发中,特别是前后端分离的架构中数据库是非常重要的,后端主要就是负责管理数据,而我们经常使用的mysql、oracle 都是关系型数据库,什么是关系型数据库?就是建立在关系模型基础上的数据库,而最…

android studio启动Task配置

Android studio 高版本默认不开启Task配置,需要自己手动开启 1.低版本配置路径:(复制他人图片) 2.高版本路径:添加下图勾选配置即可 3.gradle task 3.1 初识task gradle中所有的构建工作都是由task完成的,它帮我们处…

Ubuntu中查看电脑有多少个核——lscpu

1. 使用lscpu命令: 打开终端并输入以下命令: lscpu你会看到与CPU相关的详细信息。查找"CPU(s)"这一行来看总的核心数。另外,“Core(s) per socket”表示每个插槽或每个物理CPU的核数,“Socket(s)”表示物理CPU的数量。将这两个值相乘即得到总…

重要环节不可忽视,CSS性能优化引领用户体验!

🎬 江城开朗的豌豆:个人主页 🔥 个人专栏 :《 VUE 》 《 javaScript 》 📝 个人网站 :《 江城开朗的豌豆🫛 》 ⛺️ 生活的理想,就是为了理想的生活 ! 目录 ⭐ 专栏简介 📘 文章引言 一、前…

Java 浅拷贝会带来的问题

Java 浅拷贝会带来的问题 一,常见问题 Java 中的浅拷贝是指在对象拷贝时,只复制对象的引用,而不是对象本身。这意味着浅拷贝会导致多个对象共享同一块内存空间,当一个对象修改共享内存时,其他对象也会受到影响。 下…

ArcGIS笔记13_利用ArcGIS制作岸线与水深地形数据?建立水动力模型之前的数据收集与处理?

本文目录 前言Step 1 岸线数据Step 2 水深地形数据Step 3 其他数据及资料 前言 在利用MIKE建立水动力模型(详见【MIKE水动力笔记】系列)之前,需要收集、处理和制作诸多数据和资料,主要有岸线数据、水深地形数据、开边界潮位驱动数…

Ajax学习笔记第三天

做决定之前仔细考虑,一旦作了决定就要勇往直前、坚持到底! 【1 ikunGG邮箱注册】 整个流程展示: 1.文件目录 2.页面效果展示及代码 mysql数据库中的初始表 2.1 主页 09.html:里面代码部分解释 display: inline-block; 让块元素h1变成行内…

美颜SDK集成指南:为应用添加视频美颜功能

随着社交媒体和直播应用的兴起,视频美颜功能已成为用户追求的一项热门特性。用户希望能够在拍摄照片或进行实时视频直播时,使用美颜功能来增强其外观。为了满足这一需求,开发者可以考虑集成美颜SDK,为其应用增加这一吸引人的功能。…

【Docker】Python Flask + Redis 练习

一、构建flask镜像 1.准备文件 创建app.py,内容如下 from flask import Flask from redis import Redis app Flask(__name__) redis Redis(hostos.environ.get(REDIS_HOST,127.0.0.1),port6379)app.route(/) def hello():redis.incr(hits)return f"Hello Container W…

融云AIGC专题:高知识密度与大数据处理双向奔赴的「金融大模型」

融云出海方案全线升级 点击上方小程序报名「爱嗨游」线上发布会 “怎么用大语言模型去提升生产效率和服务表现?”在时代交替之际,这是每个行业都要回答的问题。关注【融云 RongCloud】,了解协同办公平台更多干货。 而新技术的渗透不会在所有…

Kibana功能栏中找不到Timelion功能模块的解决

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

echarts中横向柱状图的数字在条纹上方

实现效果: 数字在条纹的上方 实现方法:这些数字是用新添加一个坐标轴来实现的 直接添加坐标轴数字显示是在条纹的正右边 所以需要配置一下偏移 完整代码 var option {grid: {left: "3%",right: "4%",bottom: "3%",cont…

【工具问题】IDEA每次关闭的时候都会弹框显示closing project,然后弹框持续很久就像卡住了

idea关闭的时候出现问题 问题展示为什么会出现这种情况怎么解决 问题展示 我idea已经关闭了,但是这个弹框要持续很久才能关闭 为什么会出现这种情况 我的plugins原本是加载不出来的,所以我按照网上说法去做 怎么解决 file->setting,再如图选择…

HBuilderX代码变量名称翻译插件

对于许多开发者而言,怎么规范的命名变量是一个非常痛苦的事,而在HBuilderX中有一个的插件可以快速的帮助你完成中文转带格式的变量名,格式可以选择小驼峰、大驼峰、下划线、常量、CSS类名等。 以下为添加此插件的步骤 1、打开插件安装 选择…

Unity Spine 指定导入新Spine动画的默认材质

指定导入新Spine动画的默认材质 找到Spine的Editor导入配置如何修改方法一: 你可以通过脚本 去修改Assets/Editor/SpineSettings.asset文件方法二:通过面板手动设置 找到Spine的Editor导入配置 通常在 Assets/Editor/SpineSettings.asset 配置文件对应着 Edit/Prefe…

【机器学习合集】优化目标与评估指标合集 ->(个人学习记录笔记)

文章目录 优化目标与评估指标1. 优化目标1.1 两类基础任务与常见优化目标1.2 分类任务损失0-1损失交叉熵损失与KL散度softmax损失的理解与改进Hinge损失 1.3 回归任务损失L1/L2距离L1/L2距离的改进 Huber loss 2. 评测指标2.1 分类任务中评测指标准确率(查准率)/召回率(查全率)…

037-第三代软件开发-系统音量设置

第三代软件开发-系统音量设置 文章目录 第三代软件开发-系统音量设置项目介绍系统音量设置QML 实现C 实现 总结一下 关键字: Qt、 Qml、 volume、 声音、 GPT 项目介绍 欢迎来到我们的 QML & C 项目!这个项目结合了 QML(Qt Meta-Obj…