【深度学习:数据增强 】提高标记数据质量的 5 种方法

在这里插入图片描述

【深度学习:数据增强 】提高标记数据质量的 5 种方法

    • 计算机视觉中常见的数据错误和质量问题?
    • 为什么需要提高数据集的质量?
    • 提高标记数据质量的五种方法
      • 使用复杂的本体结构作为标签
      • 人工智能辅助标签
      • 识别标签错误的数据
      • 改进注释者管理

计算机视觉模型的复杂性、准确性、速度和计算能力每天都在进步。机器学习团队正在训练计算机视觉模型以更有效地解决问题,这使得标记数据的质量比以往任何时候都更加重要。

质量差的标记数据,或者基于图像或视频的数据集中的错误和错误可能会给机器学习团队带来巨大的问题。无论需要解决哪个部门或问题,如果计算机视觉算法无法获得所需数据的质量和数量,它们就无法产生组织所需的结果。

在本文中,我们将仔细研究标记数据中的常见错误和质量问题、组织需要提高数据集质量的原因以及实现这一目标的五种方法。

计算机视觉中常见的数据错误和质量问题?

数据科学家花费大量时间(很多人会说太多时间)调试数据并调整数据集中的标签以提高模型性能。或者,如果已应用的标签不符合要求的标准,则部分数据集需要返回注释器重新标记。

尽管有注释自动化和人工智能辅助标记工具和软件,但减少数据集中的错误和提高质量仍然是一项耗时的工作。通常,这是手动完成的,或者尽可能接近手动完成。然而,当数据集中有数千张图像和视频时,筛选每一张图像和视频来检查质量和准确性就变得不可能了。

正如我们在本文中所述,计算机视觉数据集中出现错误和质量问题的三大原因是:

  • 标签不准确;
  • 图像标签错误;
  • 缺少标签(未标记的数据);
  • 数据和相应标签不平衡(例如同一事物的图像太多),导致数据偏差或数据不足来解释边缘情况。

根据视频或图像注释工作的质量、所使用的人工智能支持的注释工具以及质量控制流程,您最终可能会在整个数据集中遇到所有三个问题。

不准确的标签会导致算法难以正确识别图像和视频中的对象。常见的示例包括松散的边界框或多边形、不覆盖对象的标签或与同一图像或帧中的其他对象重叠的标签。

将错误的标签应用于对象也会导致问题。例如,一旦将数据集输入计算机视觉模型,将“猫”标记为“狗”就会产生不准确的预测。麻省理工学院的研究表明,在最佳实践数据集中,3.4% 的标签是错误的。这意味着,大多数组织使用的数据集中存在更多不准确标签的可能性更大。

真实数据集中缺失的标签也会导致计算机视觉模型产生错误的预测和结果。

当然,标注工作的目标应该是为图像和视频数据集提供最好、最准确的标签和标注。根据相关用例和您要解决的问题。

为什么需要提高数据集的质量?

提高输入机器学习或计算机视觉模型的数据集的质量是一项持续的任务。质量始终可以提高。对数据集中标签的注释和质量所做的每一项更改都应该对计算机视觉项目的结果产生相应的改进。

例如,当您第一次为算法模型提供训练数据集时,您可能会获得 70% 的准确度分数。要使生产模型达到 90% 以上甚至 99%,需要评估和提高标签和注释的质量。

以下是您需要从数据集中获得的内容,该数据集应能产生您正在寻找的结果:

  1. 准确标记和注释图像和视频中的对象;
  2. 不缺少任何标签的数据;
  3. 包括涵盖数据异常值和每种边缘情况的标签和注释;
  4. 均衡的数据,涵盖部署环境中图像和视频的分布,例如不同的光照条件、一天中的时间、季节等);
  5. 持续的数据反馈循环,使数据漂移问题减少,质量不断提高,偏差减少,准确性提高,确保模型能够投入生产。

现在让我们考虑提高标记数据质量的五种方法。

提高标记数据质量的五种方法

使用复杂的本体结构作为标签

由于项目的标签过程,机器学习模型需要高质量的数据注释和标签。实现您想要的结果通常涉及为您的标签使用复杂的本体结构,前提是这是所需要的 - 而不仅仅是为了它。

简化的本体结构对于计算机视觉模型没有多大帮助。然而,当您使用更复杂的本体结构进行数据注释标记过程时,更容易准确地分类、标记和概述图像和视频中的对象之间的关系。

通过通过本体结构应用图像和视频中的对象的清晰定义,实施数据注释标记过程的人员可以生成更准确的标签。反过来,这可以为生产就绪的计算机视觉模型带来更好、更准确的结果。

在这里插入图片描述

Encord 中复杂本体的示例

人工智能辅助标签

完全手动的数据标记过程是一项耗时且费力的任务。它可能会导致注释者犯错误、精疲力竭(尤其是当他们一遍又一遍地应用相同的标签时)以及质量下降。

加快标记和注释数据集所需时间的最佳方法之一是使用人工智能(AI 辅助)标记工具。人工智能辅助标记,例如在数据注释过程中使用自动化工作流程工具,是创建训练数据集不可或缺的一部分。

人工智能辅助标签工具有各种形状和大小。从开箱即用的开源软件,到专有的、高级的、基于人工智能的工具,以及介于两者之间的一切。人工智能解决方案可以节省时间和金钱。使用人工智能辅助工具可以提高效率和质量,更一致地生成高质量数据集,减少错误并提高准确性。

其中一个工具是 Encord 的微模型,它是“针对特定任务或特定数据进行过度训练的注释特定模型”。 Encord 还附带了广泛的人工智能辅助标签工具和解决方案,我们将在本文末尾更详细地介绍这些工具和解决方案。

识别标签错误的数据

标签错误、标签错误或标签缺失的数据总会给计算机视觉模型带来问题。

避免这些问题的最佳方法是确保在数据注释过程中准确应用标签。然而,我们知道这并不总是可能的。错误会发生。特别是当外包注释者团队正在标记数以万计的图像或视频时。

并非每个注释者每天都能完美完成工作。有些会比其他更好。即使注释者可以使用人工智能辅助标记工具,质量也会有所不同。

因此,为了确保您的项目获得尽可能最高质量的注释和标签数据集,您需要实施专家评审工作流程和质量保证系统。

确保标签和数据质量的另一种方法是使用 Encord Active,这是一个开源主动学习框架,可以识别错误和标签不良的数据。一旦识别出错误和标签错误的图像和视频,可以将相关图像或视频(或整个数据集)发回重新注释,或者您的机器学习团队可以在将数据集引入计算机视觉之前进行必要的更改模型。

在这里插入图片描述

在 Encord Active 中识别标签错误的图像

改进注释者管理

减少数据管道质量保证端的错误数量涉及改进整个项目的注释器管理。

即使您与另一个国家/地区的外包团队合作,距离、语言障碍和时区也不会对您的项目产生负面影响。管理流程不善将产生数据集质量较差的结果。

项目负责人需要持续了解输入、输出以及注释团队中个人的表现。您需要评估注释工作中的数据注释和标签的质量,以便您可以了解谁实现了关键绩效指标 (KPI),谁没有实现。

借助正确的人工智能辅助数据标记工具,您应该拥有触手可及的项目仪表板。这不仅应该提供访问控制,而且应该让您清楚地了解注释工作的进展情况,以便可以在项目期间进行更改。这样,应该更容易判断来自注释团队的标签和注释的质量,以确保尽可能高的质量和准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/339947.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Gitee Reward让开源作者不再为爱发电

一、什么是Gitee Reward? Gitee Reward是Gitee为改善开源开发生命周期提出的新策略。开源项目的支持者们可以更轻松地为其喜爱的项目提供资金,贡献者们也可以因为其不懈的开源贡献得到奖励。 二、Gitee Reward上允许哪些类型的项目? 允许任…

2024最新版Python 3.12.1安装使用指南

2024最新版Python 3.12.1安装使用指南 Installation and Configuration Guide to the latest version Python 3.12.1 in 2024 By Jackson Python编程语言,已经成为全球最受欢迎的编程语言之一;它简单易学易用,以标准库和功能强大且广泛外挂…

瑞_数据结构与算法_二叉树

文章目录 1 什么是二叉树2 二叉树的存储2.1 使用树节点类TreeNode存储(代码)2.2 使用数组存储 3 二叉树的遍历3.1 广度优先遍历3.2 深度优先遍历3.2.1 深度优先——前序遍历3.2.2 深度优先——中序遍历3.2.3 深度优先——后序遍历 3.3 代码实现3.3.1 递归…

03--数据库连接池

1、数据库连接池 1.1 JDBC数据库连接池的必要性 在使用开发基于数据库的web程序时,传统的模式基本是按以下步骤: 在主程序(如servlet、beans)中建立数据库连接进行sql操作断开数据库连接 这种模式开发,存在的问题:…

小程序样例2:简单图片分类查看

基本功能: 1、根据分类展示图片,点击类目切换图片: 2、点击分类编辑,编辑分类显示: 3、点击某个分类,控制主页该分类显示和不显示: 类目2置灰后,主页不再显示 4、点击分类跳转到具…

【C++语言1】基本语法

前言 💓作者简介: 加油,旭杏,目前大二,正在学习C,数据结构等👀 💓作者主页:加油,旭杏的主页👀 ⏩本文收录在:再识C进阶的专栏&#x1…

Python语法进阶——类

Python中的数据类型都属于类。int、str、list都是Python定义好的数据类型类。 print(type(list))#<class type> print(type(list()))#<class list> 一、自定义数据类型 一、语法 class 类名():pass #类名 要求首字母大写 #()可写可省略。 #pass在这里只是用来保证…

推荐IDEA一个小插件,实用性很高!!

插件&#xff1a; Convert YAML and Properties File 由于每个人的开发习惯不同&#xff0c;在开发过程中会遇到各种小细节的问题。今天给大家介绍一个小插件&#xff0c;作用不大&#xff0c;细节很足。 就是properties类型文件和yml文件互相自由转换 解决&#xff1a;…

2023年DevOps国际峰会暨 BizDevOps 企业峰会(DOIS北京站):核心内容与学习收获(附大会核心PPT下载)

随着科技的飞速发展&#xff0c;软件开发的模式和流程也在不断地演变。在众多软件开发方法中&#xff0c;DevOps已成为当下热门的软件开发运维一体化模式。特别是在中国&#xff0c;随着越来越多的企业开始认识到DevOps的价值&#xff0c;这一领域的研究与实践活动日益活跃。本…

计算机网络——运输层(2)暨小程送书

计算机网络——运输层&#xff08;2&#xff09;暨小程送书 小程一言专栏链接: [link](http://t.csdnimg.cn/ZUTXU) 运输层&#xff08;2&#xff09;TCP/IP对比TCP&#xff08;传输控制协议&#xff09;&#xff1a;IP&#xff08;互联网协议&#xff09;&#xff1a;总结 拥塞…

【设计模式】适配器和桥接器模式有什么区别?

今天我探讨一下适配器模式和桥接模式&#xff0c;这两种模式往往容易被混淆&#xff0c;我们希望通过比较他们的区别和联系&#xff0c;能够让大家有更清晰的认识。 适配器模式&#xff1a;连接不兼容接口 当你有一个类的接口不兼容你的系统&#xff0c;而你又不希望修改这个…

RabbitMQ的安装使用

RabbitMQ是什么&#xff1f; MQ全称为Message Queue&#xff0c;消息队列&#xff0c;在程序之间发送消息来通信&#xff0c;而不是通过彼此调用通信。 RabbitMQ 主要是为了实现系统之间的双向解耦而实现的。当生产者大量产生数据时&#xff0c;消费者无法快速消费&#xff0c;…

公网环境调试本地配置的Java支付宝沙箱环境模拟支付场景

文章目录 前言1. 下载当面付demo2. 修改配置文件3. 打包成web服务4. 局域网测试5. 内网穿透6. 测试公网访问7. 配置二级子域名8. 测试使用固定二级子域名访问 前言 在沙箱环境调试支付SDK的时候&#xff0c;往往沙箱环境部署在本地&#xff0c;局限性大&#xff0c;在沙箱环境…

【Proteus仿真】【51单片机】遥控小风扇设计

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 本项目使用Proteus8仿真51单片机控制器&#xff0c;使用数码管显示模块、L298N电机驱动模块、按键、直流电机风扇、红外遥控等。 主要功能&#xff1a; 系统运行后&#xff0c;数码管显示风扇速度档位&a…

【操作系统】实验二 Proc文件系统

&#x1f57a;作者&#xff1a; 主页 我的专栏C语言从0到1探秘C数据结构从0到1探秘Linux &#x1f618;欢迎关注&#xff1a;&#x1f44d;点赞&#x1f64c;收藏✍️留言 &#x1f3c7;码字不易&#xff0c;你的&#x1f44d;点赞&#x1f64c;收藏❤️关注对我真的很重要&…

FluoroQuest抗淬灭试剂盒I 适合载玻片成像,能够提高荧光信号的强度和稳定性

您好&#xff0c;欢迎来到新研之家 文章关键词&#xff1a;FluoroQuestAnti-fading Kit I Optimized for Slide Imaging&#xff0c;FluoroQuest抗淬灭试剂盒I 适合载玻片成像 一、基本信息 产品简介&#xff1a;FluoroQuest抗淬灭试剂盒I 适合载玻片成像能够抑制淬灭效应&a…

unity项目《样板间展示》开发:素材导入与整理

第一章&#xff1a;素材导入与整理 前言一、创建项目文件二、导入素材模型三、素材模型整理四、光源模型管理结语 前言 这次带大家从0到1做一个unity项目&#xff1a;《样板间展示》。 顾名思义&#xff0c;项目内容是展示样板间&#xff0c;即玩家可以与房间中的物体、家具进行…

二维码地址门牌管理系统:智慧城市新篇章

文章目录 前言一、轮播广告位&#xff1a;全面信息传达二、智能化管理&#xff1a;应对挑战三、安全保障&#xff1a;市民隐私优先四、广泛应用&#xff1a;助力城市建设 前言 随着科技的飞速发展&#xff0c;城市的智能化已成不可逆转的趋势。二维码地址门牌管理系统作为新一…

ITSS认证有用吗❓属于gj级证书吗❓

&#x1f525;ITSS由中国电子技术标准化研究院推出&#xff0c;包括“IT 服务工程师”和“IT 服务经理”两种认证。该系列认证符合GB/T 28827.1 的评估和ITSS服务资质升级要求。 &#x1f3af;ITSS是受到gj认可的&#xff0c;在全国范围内对IT服务管理人员从业资格为一的权威的…

linux杀毒软件clamav安装使用

1、下载 在下面地址下载&#xff1a;https://www.clamav.net/downloads 2、安装 clamav-1.2.1.linux.x86_64.rpm放在/home路径。 执行&#xff1a; chmod -R 777 /home/clamav-1.2.1.linux.x86_64.rpm rpm -ivh clamav-1.2.1.linux.x86_64.rpm3、下载病毒库 下载路径&am…
最新文章