用合成数据训练托盘检测模型【机器学习】

想象一下,你是一名机器人或机器学习 (ML) 工程师,负责开发一个模型来检测托盘,以便叉车可以操纵它们。 ‌你熟悉传统的深度学习流程,已经整理了手动标注的数据集,并且已经训练了成功的模型。

在这里插入图片描述

推荐:用 NSDT设计器 快速搭建可编程3D场景。

你已准备好迎接下一个挑战,即大堆密集堆放的托盘。 你可能想知道,应该从哪里开始? ‌2D 边界框检测或实例分割对于此任务最有用吗? ‌应该进行 3D 边界框检测吗?如果是的话,我将如何对其进行标注? ‌是否最好使用单目相机、立体相机或激光雷达进行检测? 考虑到自然仓库场景中出现的托盘数量巨大,手动标注并不是一件容易的事。 如果我弄错了,代价可能会很高。

这是我在遇到类似情况时所想的。 幸运的是,我有一种简单的方法可以以相对较低的投入开始:合成数据。

1、合成数据概述

合成数据生成 (SDG:Synthetic Data Generation) 是一种使用渲染图像而不是真实图像生成数据来训练神经网络的技术。 ‌使用综合渲染数据的优点是,你隐式地知道场景中对象的完整形状和位置,并且可以生成标注,例如 2D 边界框、关键点、3D 边界框、分割蒙版等。 ‌‌

合成数据是引导深度学习项目的好方法,因为它使你能够在进行大量手动数据标注工作之前或在数据有限、受限或根本不存在的情况下快速迭代想法。 对于这种情况,你可能会发现具有域随机化的合成数据非常适合你的应用程序开箱即用的第一次尝试,而且还可以节省时间。

或者,你可能会发现需要重新定义任务或使用不同的传感器模式。 使用合成数据,可以尝试这些决策,而无需进行昂贵的标注工作。

在许多情况下,你仍然可以从使用一些真实世界的数据中受益。 ‌好的部分是,通过尝试合成数据,你将更加熟悉问题,并且可以将标注工作投入到最重要的地方。 每个机器学习任务都有自己的挑战,因此很难准确确定合成数据如何适应,是否需要使用真实数据,或者合成数据和真实数据的混合。

2、使用合成数据训练托盘分割模型

在考虑如何使用合成数据来训练托盘检测模型时,我们的团队从小规模开始。 在我们考虑 3D 框检测或任何复杂的东西之前,我们首先想看看是否可以使用用合成数据训练的模型来检测任何东西。 为此,我们渲染了一个简单的场景数据集,其中仅包含一个或两个托盘,顶部有一个盒子。 ‌我们使用这些数据来训练语义分割模型。

我们选择训练语义分割模型,因为任务定义明确并且模型架构相对简单。 还可以直观地识别模型失败的位置(错误分割的像素)。

为了训练分割模型,团队首先渲染粗略的合成场景(图 1)。
在这里插入图片描述

图 1. 两个托盘的粗略合成渲染,顶部有一个盒子

团队怀疑仅这些渲染图像缺乏训练有意义的托盘检测模型的多样性。 ‌我们还决定尝试使用生成式AI增强合成渲染,以生成更真实的图像。‌‌在训练之前,我们将生成式人工智能应用于这些图像以添加变化,我们相信这将提高模型推广到现实世界的能力。

这是使用深度条件生成模型完成的,该模型大致保留了渲染场景中对象的姿势。 请注意,使用 SDG 时不需要使用生成式 AI。 你也可以尝试使用传统的域随机化,例如改变托盘的合成纹理、颜色、位置和方向。 ‌你可能会发现通过改变渲染纹理进行的传统域随机化对于应用程序来说已经足够了。

在这里插入图片描述

图 2. 使用生成式 AI 增强的合成渲染

在渲染大约 2,000 张合成图像后,我们使用 PyTorch 训练了基于 resnet18 的 Unet 分割模型。 很快,结果就在现实世界的图像上显示出了巨大的希望(图 3)。

在这里插入图片描述

图 3. 使用分割模型测试的真实托盘图像

该模型可以准确地分割托盘。 基于这一结果,我们对工作流程更有信心,但挑战还远未结束。 到目前为止,该团队的方法没有区分托盘的实例,也没有检测到未放置在地板上的托盘。 ‌对于如图 4 所示的图像,结果几乎无法使用。 这可能意味着我们需要调整我们的训练分布。

在这里插入图片描述

图 4. 语义分割模型无法检测堆叠的托盘

3、迭代增加数据多样性以提高准确性

为了提高分割模型的准确性,团队添加了更多以不同随机配置堆叠的各种托盘的图像。 我们向数据集添加了大约 2,000 张图像,使图像总数达到大约 4,000 张。 ‌我们使用 USD Scene Construction Utilities 开源项目创建了堆叠托盘场景。

USD Scene Construction Utilities 用于在反映现实世界中可能看到的分布的配置中相对于彼此定位托盘。 ‌我们使用了通用场景描述(OpenUSD)SimReady Assets,它提供了多种托盘模型可供选择。
在这里插入图片描述

图 5. 使用 USD Python API 和 USD 场景构建实用程序创建结构化场景,并使用 Omniverse Replicator 进一步随机化和渲染

通过使用堆叠托盘和更广泛的视角进行训练,我们能够提高模型在这些情况下的准确性。

如果添加这些数据对模型有帮助,那么为什么在不增加标注成本的情况下只生成 2,000 张图像呢? 我们没有从很多图像开始,因为我们是从相同的合成分布中采样的。 ‌添加更多图像并不一定会给我们的数据集增加太多多样性。 相反,我们可能只是添加许多相似的图像,而没有提高模型在现实世界中的准确性。

从小规模开始,团队能够快速训练模型,查看失败的地方,并调整 SDG 管道并添加更多数据。 例如,在注意到模型对托盘的特定颜色和形状有偏见后,我们添加了更多的合成数据来解决这些失败案例。

在这里插入图片描述

图 6. 各种颜色塑料托盘的渲染图

这些数据变化提高了模型处理遇到的故障场景(塑料和彩色托盘)的能力。

如果数据变化很好,为什么不全力以赴并立即添加大量变化呢? 在我们的团队开始测试真实数据之前,很难判断可能需要什么差异。 ‌我们可能错过了使模型良好运行所需的重要因素。 或者,我们可能高估了其他因素的重要性,不必要地耗尽了我们的努力。 通过迭代,我们更好地了解了任务需要哪些数据。

4、托盘侧面中心检测

一旦我们在分割方面取得了一些有希望的结果,下一步就是将任务从语义分割调整为更实用的任务。 ‌我们决定,下一个最简单的评估任务是检测托盘侧面的中心。

在这里插入图片描述

图 7. 托盘侧面中心检测任务的示例数据

托盘侧面中心点是叉车在操纵托盘时将自身居中的位置。 ‌虽然在实践中可能需要更多信息来操纵托盘(例如此时的距离和角度),但我们认为这一点是此过程中的一个简单的下一步,使团队能够评估我们的数据对于任何下游应用程序有多大用处 。

检测这些点可以通过热力图回归来完成,与分割一样,热力图回归是在图像域中完成的,易于实现,并且易于直观解释。 通过为此任务训练模型,我们可以快速评估我们的合成数据集在训练模型以检测重要的操作关键点方面的有用性。

训练后的结果很有希望,如图 8 所示。

在这里插入图片描述

图 8. 托盘侧面检测模型的真实检测结果

团队确认了使用合成数据检测托盘侧面的能力,即使是紧密堆叠的托盘也是如此。 我们继续迭代数据、模型和训练管道,以改进此任务的模型。

5、角点检测

当我们对侧面中心检测模型达到满意的程度时,我们探索将任务提升到一个新的水平:检测盒子的角点。 最初的方法是对每个角使用热力图,类似于托盘侧面中心的方法。

在这里插入图片描述

图 9. 使用热力图的托盘角点检测模型

然而,这种方法很快就带来了挑战。 由于检测对象的尺寸未知,如果托盘的角不是直接可见的,则模型很难精确推断托盘的角应该在哪里。 使用热力图,如果峰值不一致,则很难可靠地解析它们。

因此,我们没有使用热力图,而是选择在检测到面中心峰值后对角位置进行回归。 我们训练了一个模型来推断一个向量场,该向量场包含角点相对于给定托盘面中心的偏移量。 ‌这种方法很快就显示出了完成这项任务的希望,即使有很大的遮挡,我们也可以提供对角位置的有意义的估计。

在这里插入图片描述

图 10. 使用面中心热力图和基于矢量场的角点回归的托盘检测结果

现在团队拥有了一个有前途的工作流程,我们迭代并扩展了这个流程,以解决出现的不同失败案例。 总的来说,我们的最终模型接受了大约 25,000 张渲染图像的训练。 我们的模型以相对较低的分辨率(256 x 256 像素)进行训练,能够通过以更高分辨率运行推理来检测小托盘。 最终,我们能够以相对较高的准确度检测到具有挑战性的场景,如上面的场景。

这是我们可以使用的东西——所有这些都是用合成数据创建的。 这就是我们今天的托盘检测模型的立场。

在这里插入图片描述

图 11.最终托盘模型检测结果,为了便于可视化,仅显示检测的正面

在这里插入图片描述

图 12. 实时运行的托盘检测模型

6、用合成数据构建你自己的模型

通过使用合成数据进行迭代开发,我们的团队开发了一种适用于真实图像的托盘检测模型。 通过更多的迭代,可能会取得进一步的进展。 除此之外,我们的任务可能会受益于添加真实世界的数据。 然而,如果没有合成数据生成,我们就无法快速迭代,因为我们所做的每个更改都需要新的标注工作。

如果你有兴趣尝试此模型,或者正在开发可以使用托盘检测模型的应用程序,可以通过访问 GitHub 上的 SDG 托盘模型来找到模型和推理代码。 该存储库包括预训练的 ONNX 模型以及使用 TensorRT 优化模型并在图像上运行推理的说明。 该模型可以在 NVIDIA Jetson AGX Orin 上实时运行,因此你将能够在边缘设备上运行它。

你还可以查看最近的开源项目 USD Scene Construction Utilities,其中包含使用 USD Python API 构建 USD 场景的示例和实用程序。

我们希望我们的经验能够启发你探索如何使用合成数据来引导你的人工智能应用程序。 如果想开始生成合成数据,NVIDIA 提供了一套工具来简化该过程。 这些包括:

  • 通用场景描述(OpenUSD):USD被描述为metaverse的HTML,是一个完整描述3D世界的框架。 USD 不仅包含 3D 对象网格等基元,而且还具有描述材质、照明、相机、物理等的能力。
  • NVIDIA Omniverse Replicator:Replicator 是 NVIDIA Omniverse 平台的核心扩展,使开发人员能够生成大量且多样化的合成训练数据,以引导感知模型训练。 凭借易于使用的 API、域随机化和多传感器模拟等功能,Replicator 可以解决数据缺乏的挑战并加速模型训练过程。
  • SimReady 资产:模拟就绪资产是物理上精确的 3D 对象,包含精确的物理属性、行为和连接的数据流,以代表模拟数字世界中的现实世界。 NVIDIA 提供了一系列真实资产和材质,可开箱即用地用于构建 3D 场景。 这包括与仓库物流相关的各种资产,例如托盘、手推车和纸板箱。 要在将 SimReady 资产添加到活动阶段之前搜索、显示、检查和配置它们,你可以使用 SimReady Explorer 扩展。 每个 SimReady 资产都有自己的预定义语义标签,可以更轻松地生成用于分割或对象检测模型的标注数据。

如果你对托盘模型、NVIDIA Omniverse 合成数据生成或 NVIDIA Jetson 推理有疑问,请访问 GitHub 或访问 NVIDIA Omniverse 合成数据生成开发者论坛和 NVIDIA Jetson Orin Nano 开发者论坛。


原文链接:基于合成数据的托盘检测 — BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/51604.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【业务功能篇60】Springboot + Spring Security 权限管理 【终篇】

4.4.7 权限校验扩展 4.4.7.1 PreAuthorize注解中的其他方法 hasAuthority:检查调用者是否具有指定的权限; RequestMapping("/hello")PreAuthorize("hasAuthority(system:user:list)")public String hello(){return "hello Sp…

深度学习入门教程(1):用神经网络预测糖尿病病例Predict Diabetes Cases with Neural Networks

本深度学习入门教程是在polyu HPCStudio 启发以及资源支持下进行的,在此也感谢polyu以及提供支持的老师。 大纲(what will you learn from this project) 1:What are neural networks? 2:Why use neural …

3D 渲染技巧-如何创建高质量写实渲染?

掌握创建高质量建筑渲染和任何 3D 渲染的艺术是一项复杂且需要技巧的工作,通常需要多年的经验和实践。实现逼真的结果需要仔细考虑众多因素,并避免可能导致缺乏真实性的假渲染效果的常见错误。 避免常见错误 - 提升渲染游戏的技巧 在追求创建真正逼真的…

从零开始学习CTF——CTF是什么

引言: 从2019年10月开始接触CTF,学习了sql注入、文件包含等web知识点,但都是只知道知识点却实用不上,后来在刷CTF题才发现知识点的使用方法,知道在哪里使用,哪里容易出漏洞,可是在挖src漏洞中还…

Appium+python自动化(二十四) - 元素等待(超详解)

思考 在自动化过程中,元素出现受网络环境,设备性能等多种因素影响。因此元素加载的时间可能不一致,从而会导致元素无法定位超时报错,但是实际上元素是正常加载了的,只是出现时间晚一点而已。那么如何解决这个问题呢&am…

【业务功能篇57】Springboot + Spring Security 权限管理 【上篇】

4.权限管理模块开发 4.1 权限管理概述 4.1.1 权限管理的意义 后台管理系统中,通常需要控制不同的登录用户可以操作的内容。权限管理用于管理系统资源,分配用户菜单、资源权限,以及验证用户是否有访问资源权限。 4.1.2 RBAC权限设计模型 …

Scratch 教程 之 如何四舍五入保留一个小数到指定的数位

有些时候,我们需要四舍五入一个多位小数到指定的位,但scratch并没有这个积木,怎么做呢?我来教你~ 我们创建一个函数,需要时调用就行了~ 如图,创建一个带参函数,勾选"…

wxwidgets Ribbon构建多个page与按钮响应

新建一个控制台应用程序,添加好头文件的依赖与lib库文件的依赖,修改属性: 将进入ribbon界面的文件与主界面的类分开: 1、RibbonSample.cpp #include "stdafx.h" #include "MyFrame.h" class MyApp : public…

微服务——Docker

docker与虚拟机的区别 首先要知道三个层次 硬件层:计算机硬件 内核层:与硬件交互,提供操作硬件的指令 应用层: 系统应用封装内核指令为函数,便于程序员调用。用户程序基于系统函数库实现功能。 docker在打包的时候直接把应用层的函数库也进行打包&a…

机器学习深度学习——softmax回归的简洁实现

👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er 🌌上期文章:机器学习&&深度学习——softmax回归从零开始实现 📚订阅专栏:机器学习&&深度学习 希望文章对你…

状态机实现N位按键消抖

状态机实现N位按键消抖 1、原理 利用状态机实现按键的消抖,具体的原理可参考 (50条消息) 基于FPGA的按键消抖_fpga 按键消抖_辣子鸡味的橘子的博客-CSDN博客 状态机简介: 状态机分类可以主要分为两类:moore和mealy 根据三段式状态机最后…

Virtualbox虚拟机中Ubuntu忘记密码

1、首先重新启动Ubuntu系统,鼠标快速点一下Virtualbox虚拟机窗口获取焦点,然后按住shift键,以调出grub启动菜单。 2、根据提示按下键盘E键进入编辑模式,向下移动光标,将如下"ro quiet splash $vt_handoff"部…

软件测试面试【证券项目公司】

这家公司是做证券项目的,约的9点钟,路程还是有点遥远,转了一趟公交两趟地铁,精力都花在了路上,感觉有点累,以下是今天得面试流程。 到公司前台给我了一张面试表,写完之后就是等待面试。一共面试…

GAMES101 笔记 Lecture13 光线追踪1

目录 Why Ray Tracing?(为什么需要光线追踪?)Basic Ray Tracing Algorithm(基础的光线追踪算法)Ray Casting(光线的投射)Generating Eye Rays(生成Eye Rays) Recursive(Whitted-Styled) Ray Tracing Ray-Surface Intersection(光线和平面的交点)Ray Rquation(射线方…

PC音频框架学习

1.整体链路 下行播放: App下发音源→CPU Audio Engine 信号处理→DSP数字信号处理→Codec DAC→PA→SPK 上行录音: MIC拾音→集成运放→Codec ADC→DSP数字信号处理→CPU Audio Engine 信号处理→App 2.硬件 CPU PCH DSP(可选) Codec PA SPKbox MIC…

spring项目中idea提示Application context not configured for this file

今天在重构项目的时候,碰到一个问题。就是在spring底下,有一个包里面的所有配置类,在idea的开发工具类底下提示,Application context not configured for this file,如图所示 一开始以为是警告,不予处理&am…

【NLP】语音识别 — GMM, HMM

一、说明 在语音识别的深度学习(DL)时代之前,HMM和GMM是语音识别的两项必学技术。现在,有将HMM与深度学习相结合的混合系统,并且有些系统是免费的HMM。我们现在有更多的设计选择。然而,对于许多生成模型来说…

C++之文件操作

1.C文件操作 C中文件操作头文件:fstream。   文件类型:文件文件和二进制文件。 文件操作三大类:     ofstream 写操作     ifstream 读操作     fstream:读写操作 文件打开方式: 标志说明ios::in只读ios::out只写,文件不存在则…

JVM详解(超详细)

目录 JVM 的简介 JVM 执行流程 JVM 运行时数据区 由五部分组成 JVM 的类加载机制 类加载的过程(五个) 双亲委派模型 类加载器 双亲委派模型的优点 JVM 中的垃圾回收策略 GC GC 中主要分成两个阶段 死亡对象的判断算法 引用计数算法 可达性分析算法 垃圾回收算…

【设计模式——学习笔记】23种设计模式——组合模式Composite(原理讲解+应用场景介绍+案例介绍+Java代码实现)

文章目录 案例引入学校院系展示 介绍基本介绍使用场景登场角色 案例实现案例1类图代码实现 案例2类图代码实现拓展 组合模式在JDK的HashMap源码中的应用组合模式总结文章说明 案例引入 学校院系展示 编写程序展示一个学校院系结构: 需求是这样,要在一个页面中展示…
最新文章