澳鹏干货解答!“关于机器学习的十大常见问题”

探索机器学习的常见问题,了解机器学习和人工智能的基本概念、原理、发展趋势、用途、方法和所需的数据要求从而发掘潜在的商机。

什么是机器学习?

机器学习即教授机器如何学习的过程,为机器提供指导,帮助它们自己开发逻辑,访问您希望它们访问的数据。机器学习的成果就是某种形式的人工智能(AI)。通俗来讲,机器学习就是不断输入基础资料、训练数据,以帮助其撷取特征,建立模型,得到答案的过程。

“尽管它的名字里有‘人工’二字,但这项技术并没有任何‘人工’之处,它是人类创造的技术,旨在表现得像人类一样并影响人类。所以,若我们希望它在将来发挥积极作用,则必须以人为本。”

  • 李飞飞谈“以人为本的AI”,《纽约时报》

机器学习工作的原理是什么?

计算机遵循规则。这些规则也称为算法。计算机在首次开始学习时会获得一组初始数据以进行探索。这些数据被称为训练数据。

计算机开始识别模式,并根据算法和训练数据做出决定。根据使用的机器学习的类型,还要给机器设定要达成的目标,当机器做出正确的决定或朝着最终目标迈出积极的一步时,就会予以嘉奖。当机器建立这种理解或“学习”时,其通过一系列步骤将新的输入转换为输出,这些输出可能包括全新的数据集、标记的数据、决定乃至行动。

理念是,机器学习到的知识足以在无任何人工干预的情况下进行操作。通过这种方式,机器开始发展并展示我们所谓的人工智能。机器学习是创建人工智能的一种主要方法。

人工智能的其他示例包括机器人、语音识别和自然语言生成,所有这些均需某些机器学习的元素。实现机器学习的原因和方法有很多。机器学习的算法以及训练数据的类型和来源也多种多样。

机器学习飞速发展的原因?

近年来,有三件事促成人们对机器学习的广泛关注。

  1. 各类数据的增长
  2. 存储成本的下降
  3. 计算能力的大幅提升

与任何事物一样,有证据表明还有其他促成因素和商业驱动因素,但在为加速机器学习应用以及人工智能创新应用铺平道路方面,上述三项进步显然占据着主导地位。

机器学习的商业价值?

无论是国营企业或是私企均在投资机器学习,因为机器学习可在以下方面提升其能力:

  • 速度. 更快地获得答案并执行复杂的计算
  • 能力,处理比以往更多的数据,进行更复杂的分析。
  • 智能,通过挖掘现实世界以前无法解读的数据揭示新的洞察。
  • 效率,以更少的人力完成更多的分析

无论来自哪个行业,您都有可能找到可靠的机器学习用例,并能够通过预期的收入回报和利润数据证明投资机器学习的合理性。

事实证明,机器学习能减少甚至消除人工数据录入、检测垃圾邮件、打击欺诈和推荐产品。机器学习可用来预测何时需要对设备和基础设施进行维护,它能前所未有地为您提供更多关于客户的洞察,提高客户的满意度。

如果您尚未投资机器学习,那可能您要思考了:为什么还不投资呢? 

机器学习的用途?

机器学习的用例广泛多样,并且仍在探索中,我们将重点介绍机器学习在五个常见领域的应用。

零售和电子商务

人工智能和机器学习正被用于提高转化率、改善客户体验、提供个性化服务等方面。

  • 搜索相关性:在线购物者不奢求向销售人员询问在哪里可以搜索到他/她想找的货物。现在搜索引擎当仁不让。机器学习能解读搜索查询,评估用户意图,并使用这些信息训练搜索算法,让搜索结果更加相关,从而提高购买转化率。

  • 个性化: 根据购物者以往的行为向他们提供建议或搜索结果,将帮助提高用户粘性和留存率。

  • 改善客户服务: 聊天机器人充当虚拟购物助手。像员工一样,聊天机器人也需要接受培训,不仅要了解您销售的产品,而且还要了解人们在您的网站上用于许多产品的术语。

科技

搜索引擎和其他领先的科技公司利用机器学习进行AI的研发,以提供创新产品,改善用户体验。

  • 搜索相关性: 搜索引擎算法利用机器学习提高用户粘性。通过解释查询和评估用户意图,搜索结果将变得更加相关,从而提高用户的满意度。

  • 个性化: 分析数据活动和偏好可帮助搜索引擎和社交媒体推送个性化内容,提升在线用户体验。

  • 自然语言处理(NLP): 例如,NLP可以分析语言模式,理解可能使用口语或社交媒体上的其他自然模式的文本。这种技术可用于跟踪客户情绪并制定参与策略。

  • 金融服务: 金融服务业领导者利用机器学习和人工智能改善客户获取和维系,并提升客户整体体验。

  • 风险管理: 反洗钱(AML)、了解客户(KYC)和欺诈识别计划需要复杂的工具发现潜在威胁。仅仅依靠人力发现财务记录中的异常模式不仅费时,而且代价高昂。机器学习和人工智能使金融机构能够快速筛选数据并发现异常情况,防止非法活动,为企业挽回可能的损失。

  • 创收: 如今,金融机构纷纷利用机器学习算法来制定投资策略,从而解放金融顾问,让其能够更多地与客户互动。

  • 提升客户体验: 如今,由于按需客户服务备受人们的期待,聊天机器人的作用也就至关重要。聊天机器人通过实时反馈和流畅的体验让客户满意。

汽车

用自动驾驶汽车的训练数据加速机器学习,用更精确的现场测试改善语音识别系统、车内导航和用户体验。

  • 自动驾驶汽车: 虽然自动驾驶汽车极其复杂,但其神经网络却由机器学习支持。自动驾驶汽车向前行驶时,会处理大量的视觉数据,就像驾驶员观察车窗外的情况一样。汽车需要为大量图像数据赋予意义,例如识别一棵树或是行人,然后将这些信息反馈至汽车AI系统以教予其。
  • 语音识别: 传统的仪表盘和移动设备需要驾驶员用手操作,还会让驾驶员的视线离开路面。语音界面却无需如此。联网汽车需要访问大规模的语音数据收集来训练语音界面,为世界各地的消费者提供一流的用户体验。

  • 预测行为: 语音识别和摄像头的进步将帮助追踪驾驶员的情绪,这是人机界面的重要一步,让汽车能够识别说话者的情绪及其语言,这样,当用户感到沮丧时,汽车就能知道并做出相应的反应。

政府

通过安全数据服务改善应急响应、防御计划和执法。

  • 防御: 通过使用社交媒体监控、计算机视觉和数据标注,政府机构现在能够提取信息帮助监视恐怖分子、监控国家安全威胁等等。

  • 国家应急响应: 自然灾害、协同袭击等紧急情况可能毫无预兆地发生。在民众生命危在旦夕之时,立即作出响应并进行协调至关重要。通过翻译、语音识别和文本数据收集,世界各地的应急响应人员有效地使用机器与陷于危险境地中的人们进行交流。

  • 执法: 安全转录允许执法部门完成多项目标,包括从随身携带的视频中捕获文件、官方记录保存和档案记录解决方案。

医疗

AI和机器学习在医疗行业中令人兴奋的应用正在改变病患照顾的现状。

  • 预测分析: 评估趋势,预测疫情,预测患者需求。

  • 聊天机器人和虚拟医疗: 更快更好地提供客户服务。

  • 保险业的发展: 利用机器学习建立基于各种数据点的更可靠承保模型。

三大机器学习方法?

“大多数人类和动物的学习都是无监督学习。如果将智能比作一块蛋糕,那么无监督学习就是这块蛋糕,监督学习就是蛋糕上的糖霜,而强化学习就是蛋糕上的樱桃。我们知道如何做糖霜和樱桃,但却不知道如何做蛋糕。我们需要先解决无监督学习问题,然后再思考真正的人工智能。”

  • Facebook AI研究主管杨立昆

监督式学习

  • 监督式学习算法旨在根据示例或训练数据确定预测模型: 这些数据集包含输入变量和匹配的正确输出变量。这种算法的任务是分析数据,并生成一个函数,以准确地将输入映射到相应的输出。经过训练,这种算法能继续预测任何给定的新数据的结果。
  • 分类: 分类最容易理解。评估数据,确定其属于哪个类别。举例说,某个机器学习模型要求机器确定一张图片是否为一匹马。这是个简单的是/否响应,是个二元分类示例。在提供足够多的马的图片和非马的图片的训练数据之后,机器就能学习辨别马的特征,然后独立观察图片,并告诉您图片是否为马。

  • 回归: 不是分离数据和分配类别,而是要求机器根据从初始训练数据中得到的响应预测一个响应或输出。举个简单的例子,如果初始输入3和5的目标是8,学习的逻辑就是将两个输入相加。最终,该模型会使用回归分析预测输入4和6的目标为10。监督式学习属于任务导向型;也即“为我找到XYZ目标。”

半监督式学习

半监督式学习是一种混合模型。使用半监督式深度学习的算法是在标记数据和未标记数据的组合上训练的。这种方法可能更为实用,因为让数据科学家或数据工程师标记数据可能代价高昂。其他时候,之所以采用这种方法,是因为数据规模太大,标记数据的任务太过艰巨。团队采用混合方法的另一个原因是,要避免在数据标记期间可能出现任何类型的人为偏见。

“在无数据之前就建立理论是最大的错误。不知不觉中,人们开始扭曲事实以附会理论,而不是让理论符合事实。”夏洛克·福尔摩斯

通过半监督式学习,您的模型可能会受益,并可以通过纳入一些目标或已标记数据来加快工作,为理解未标记数据所做的工作还可能会揭示见解,为您提供尚未发现的输出。这种方法在许多情况下都是双赢的,也是常用方法。

强化学习

强化学习是最抽象的方法,它完全基于机器,通常被称为“学习主体”,通过反复试错学习。在给定的环境中,机器根据它所获得奖励的定义决定采取哪些行动提升性能。这种试错活动叫做探索。获自理解哪些行为能获得奖励的知识叫做利用。

学习主体在先进的机器学习算法的推动下,通过对环境的探索和利用,最终获得足够的知识,开始展示近乎人类水平的人工智能。

机器人就是强化学习的最佳示例。机器人在工厂中的使用很大程度上取决于它们使用强化学习适应环境的能力,它们不断降低出错率,完成类似人类的任务和行为。

机器学习需要什么样的数据?

“机器学习的好坏取决于用来训练它的数据。”

  • Daniel Tunkelang,曾在Endeca、Google和LinkedIn领导机器学习项目机器学习项目需要有足够多的正确数据来支持,这点非常重要,关于它的文章不胜枚举。

正如前文引语中的Tunkelang在《关于机器学习您必须知道的10件事情》中所解释,“少了复杂的算法还能进行机器学习,但少了好的数据就不行。”

那么需要怎样的数据呢?这要视情况而定。

结构化数据与非结构化数据

  • 结构化数据: 结构化数据有逻辑组织,便于计算机读取和理解。它既可以是从ERP或CRM系统中提取的机器生成的交易数据,也可以是来自传感器的关于动作的简单时间戳数据,还可以是电子表格中人工生成的数据输入。这种类型的数据最常用于监督式学习中,即使数量庞大,也能非常快地处理。

  • 非结构化数据: 行业领导者认为,世界上超过80%的数据都是非结构化数据,而且数量呈指数级增长。非结构化数据无所不在。人类生成的非结构化数据包括微软Word文件和其他文本文件、演示文稿、视频、图像、音频、社交媒体帖子等等。机器生成的非结构化数据包括监控录像、卫星图像和科学数据等等。监督式学习和强化学习都是不可思议的工具,可用于获取见解并利用非结构化数据完成更多任务。

机器学习需要多少数据?

简而言之:很多。即使是世界上最好的算法,也很难在数据不足的情况下得出正确的结果。

“AI技术需要对模型进行再训练,以匹配可能不断变化的条件,因此训练数据必须经常更新。在三分之一的情况下,模型需要至少每月更新一次,在近四分之一的情况下,模型需要每天更新。”

  • 麦肯锡全球研究所,AI前沿笔记。

原因就是数量越大,准确度就越高。

这点有很多原因。其中一个原因是,大多数机器学习模型都试图让计算机理解千变万化的数据集。

例如,对于语音识别应用,性别、年龄、方言等方面的差异,导致语音千变万化。一些专家称,一个模型至少需要10,000小时的音频才能提供中等精度的输出。另一些则称,虽然所需的数据总量取决于模型或问题的复杂性,但大多数模型的最低要求是100,000个实例。

数据“质量”非常重要?

是的!其重要性甚至超过数据的数量。

“更多的数据优于聪明的算法,但质胜于量。”

  • Peter Norvig, 计算机科学家,谷歌和行业领袖

致使数据“不佳”的因素可能与人有关,标注不准确,有误导性,或者不完整。在这些情况下,需要进行一些数据清理或准备工作。

如果模型的任务是对数据进行分类,那么就必须首先正确标记训练数据。有时格式就是个问题。例如,在处理图像数据时,您可能需要调整图像的大小,以便让模型分析相同长度的向量。

您使用的任何数据都需要进行某些清洗。专家指出,需要做的工作不只是数据的提取、转换和加载(ETL)。在任何机器学习项目中,即便上述工作已完成,要使数据符合数据科学要求,所需的清洗工作平均通常还要占总工作量的80%。

机器学习常见问题解答补充资源

随着用例的不断增加,您会希望与时俱进,以各种方式改进模型并为客户创建更好的产品。

  • 麦肯锡全球研究院 AI 前沿笔记

  • AI与机器学习全景报告
  • 机器学习需要多少数据?

机器学习术语表

  • 人工智能(AI): 机器独立运行以完成通常需要人类智能的任务和活动的能力。

  • 聊天机器人: 聊天机器人是一种虚拟助手,它可以模拟典型的对话线程与人类进行交流。通常通过互联网交付,嵌入到网站或手机应用中。

  • 数据分类: 数据可以由人或机器分类,它是将特定类别分配给具有相同特征的数据的过程,例如日期、来源、类型等。其目的是使数据更易于理解、分析或使用。

  • 数据标记: 数据标记由人执行,它是添加标签的过程,为机器提供目标,用于监督式机器学习模型。

  • 机器学习: 机器学习即教授机器如何学习的过程,为机器提供指导,帮助它们自己开发逻辑,并访问您希望它们探索的数据。

  • 强化学习: 机器或学习主体得到一个数据集、一套关于如何探索数据的规则,并清楚理解其表现何时会得到奖励。在探索数据及其“环境”时,机器通过反复试错,学习获得奖励并实现其目标的最高效和有效的方法。

  • 结构化数据: 世界上只有20%的数据被认为是“结构化的”。结构化数据以一种便于计算机分析和解释的方式予以组织。它通常出现在关系数据库、电子表格和企业系统(如CRM、ERP)和金融应用中。

  • 监督式学习: 监督式学习模型是当今使用的机器学习中最简单和最准确的实例。在监督式学习中,将为机器提供结构化的数据集,其中包括输入和已被标记为“目标”的数据或期望输出的数据。机器从这些例子中学习将输入转换为输出的逻辑,最终机器仅需输入即可独立创建目标输出。

  • 训练数据: 训练数据是机器学习项目中用于开始教授机器有关该项目的逻辑、行为或其他智能形式的数据。模型在使用足够的数据后,就会得到测试数据,在项目宣告成功之前,它会使用验证数据运行。

  • 非结构化数据: 世界上80%的数据的组织方式都不利于解释或分析。如文本和聊天信息、录制的音频、视频和社交媒体帖子。

  • 无监督学习: 机器得到的数据尚未被标记。机器和模型的任务是寻找数据之间的相关性、模式或关系,并将这些见解作为输出交付。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/258448.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32G030C8T6:使用按键控制LED亮灭(外部中断)

本专栏记录STM32开发各个功能的详细过程,方便自己后续查看,当然也供正在入门STM32单片机的兄弟们参考; 本小节的目标是,系统主频64 MHZ,采用高速外部晶振,通过KEY1 按键的PA0 引脚配置成中断输入引脚,PB9引…

SSH的交互原理(wireshark的分析)

SSH的交换原理(wireshark篇) 首先要想了解ssh的交换原理,必须要先了解他的加密方式,他的加密方式是对称加密,和公钥加密。什么意思呢? 首先我们向服务器发送一个请求,然后服务器会发给我们他的…

【Linux】进程周边006之进程地址空间

👀樊梓慕:个人主页 🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》 🌝每一个不曾起舞的日子,都是对生命的辜负 目录 前言 1.程序地址空间 1.1验证地址…

LeetCode 每日一题 Day 17 || 二分

1901. 寻找峰值 II 一个 2D 网格中的 峰值 是指那些 严格大于 其相邻格子(上、下、左、右)的元素。 给你一个 从 0 开始编号 的 m x n 矩阵 mat ,其中任意两个相邻格子的值都 不相同 。找出 任意一个 峰值 mat[i][j] 并 返回其位置 [i,j] 。 你可以假设整个矩阵周…

怎么检测DC-DC电源模块稳定性?电源测试系统测试有什么优势?

DC-DC电源模块稳定性测试 稳定性是衡量DC电源模块的重要指标,电源模块的稳定性直接影响着电源产品和设备的工作稳定性。DC-DC电源模块的稳定性,可以通过检测输出电压、输出电流、负载、波形、效率等参数来评估。 1. 静态测试方法 静态测试是通过直流电压…

sparksql介绍

1.1 SparkSQL介绍 SparkSQL,顾名思义,就是Spark生态体系中的构建在SparkCore基础之上的一个基于SQL的计算模块。 SparkSQL的前身不叫SparkSQL,而叫Shark,最开始的时候底层代码优化,sql的解析、执行引擎等等完全基于H…

基于ssm酒店客房管理系统论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本酒店客房管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据信息…

基于CNN+数据增强+残差网络Resnet50的少样本高准确度猫咪种类识别—深度学习算法应用(含全部工程源码)+数据集+模型(五)

系列文章目录 基于CNN数据增强残差网络Resnet50的少样本高准确度猫咪种类识别—深度学习算法应用(含全部工程源码)数据集模型(一) 基于CNN数据增强残差网络Resnet50的少样本高准确度猫咪种类识别—深度学习算法应用(含全部工程源码)数据集模型&#xf…

seaborn库图形进行数据分析(基于tips数据集)

目录 一、相关性 二、变量分析 三、统计数 四、 特征值分布 五、多变量 Seaborn 是一个基于 matplotlib 的数据可视化库,可以用来绘制各种统计图表,包括散点图、条形图、折线图、箱线图等。Seaborn 提供了一些用于美化图表的默认样式和颜色主题&am…

macOS 安装 oh-my-zsh 后 node 报错 command not found : node

最近为了让终端中显示 git 分支的名称,安装了 oh-my-zsh ,安装之后呢,我原先安装的 Volta、 node 都没法用了,报错如下: 这时候粗略判断应该是系统变量出了问题,oh-my-zsh 的变量文件是 ~/.zshrc&#xff0…

旅游景区项目信息化建设运营方案:PPT47页,附下载

关键词:智慧景区解决方案,智慧景区建设,智慧景区开发与管理,智慧景区建设的意义,智慧景区管理 一、旅游景区项目信息化建设背景 1、旅游业发展迅速:随着旅游业的不断发展,游客对旅游体验的需求…

简历摘要:它是什么、为什么重要以及如何编写

然而,在这里,你有绝佳的机会用自己的语言总结你最伟大的职业品质——就像用文字创作一幅自画像一样。如果做得好,你的简历摘要可以让你的简历引人注目,立即引起招聘经理的注意。但如果做得不好,可能会立即让人倒胃口。…

排序嘉年华———快速排序优化版和非递归思想

文章目录 一.单趟排序的优化1.“挖坑法”排序2.双指针法 二.递归次数的缩减优化三.非递归方式的快排 一.单趟排序的优化 在之前文章中介绍过,霍尔大佬的单趟排序,虽然思想很厉害,但存在许多坑点,比如While循环内条件判定的繁琐&a…

延迟消息队列的几种实现方案,哪种更适合业务,要看具体情况分析

延迟消息队列的几种实现方案,延迟消息怎么实现,很多人可能一想到的是rabbitmq的死信队列来实现,但是一旦引入mq的话,就依赖这个中间件,另外维护成本,开发成本都很大,那有么有简单点的实现方式呢…

基于蓝牙传输的PM2.5测量仪(论文+源码)

1. 系统设计 当前人们对家居环境的要求越来越高,因此本课题设计了一款基于蓝牙传输的PM2.5测量仪,在功能上设计如下: 可以实时检测当前环境的PM2.5浓度;检测的PM2.5浓度可以在液晶上进行显示;检测的参数可以通过蓝牙传…

微信小程序开发从零到壹(持续更新)

1、注册或者登录到微信小程序; 小程序 补充小程序的基本信息,如名称、图标、描述等 补充小程序的服务类目,设置主营类目 AppID(小程序ID): wx710efeb42778d131 AppSecret(小程序密钥): d12a7e2b135593f6fxxxxbe35666 2…

关于“Python”的核心知识点整理大全30

目录 12.2.3 在 OS X 系统中安装 Pygame 12.2.4 在 Windows 系统中安装 Pygame 12.3 开始游戏项目 12.3.1 创建 Pygame 窗口以及响应用户输入 首先,我们创建一个空的Pygame窗口。使用Pygame编写的游戏的基本结构如下: alien_invasion.py 12.3.2 设…

电子科大软件测试~第一次作业

第一次作业及参考答案 第一题 针对电子科技大学信息门户的“密码找回”界面的邮箱输入域进行验证, 采用等价划分法设计相应的测试用例,包括尽量多的无效等价类。 答: 有效等价类如下: (1)邮箱输入学符串格式***uestc.edu.cn或***UESTC.ED…

引入sortablejs插件实现表格列拖拽功能的封装

1 参考其他文章 VueElementUI 实现 动态调整表格列 显示隐藏&显示顺序 2 具体实现 2.1 将列拖拽功能封装到通用表格动态列组件里 关于表格动态列组件的具体代码,可以看我的另一篇博客:Vue - 基于Element UI封装一个表格动态列组件。 2.2 实现思…

linux中deadline调度原理与代码注释

简介 deadline调度是比rt调度更高优先级的调度,它没有依赖于优先级的概念,而是给了每个实时任务一定的调度时间,这样的好处是:使多个实时任务场景的时间分配更合理,不让一些实时任务因为优先级低而饿死。deadline调度…
最新文章