基于通道的数据增强方法_使用随机量化的方式


前言本文提出了一种适用于任意数据模态的自监督学习数据增强技术

来源:机器之心

仅用于学术分享,若侵权请联系删除

自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的,但是在具体操作上是基于特定的数据模态的。这意味着需要为不同的数据模态开发不同的自监督学习算法。为此,本文提出了一种通用的数据增强技术,可以应用于任意数据模态。相较于已有的通用的自监督学习,该方法能够取得明显的性能提升,同时能够代替一系列为特定模态设计的复杂的数据增强方式并取得与之类似的性能。

  • 论文地址:

    https://arxiv.org/abs/2212.08663

  • 代码:

    https://github.com/microsoft/random_quantize

简介

当前 Siamese 表征学习 / 对比学习需要利用数据增强技术来构建同一个数据的不同样本,并将其输入两个并行的网络结构,从而产生足够强的监督信号。然而这些数据增强技术往往非常依赖于模态特定的先验知识,通常需要手动设计或者搜索适用于当前模态的最佳组合。除了耗时耗力外,找到的最优数据增强方式也极难迁移到别的领域。例如,常见的针对于自然 RGB 图像的颜色抖动(color jittering)无法应用于除了自然图像以外的其他数据模态。

一般性地,输入数据可以被表征为由序列维度(sequential)和通道维度(channel)组成的二维向量。其中序列维度通常是模态相关的,例如图像上的空间维度、语音的时间维度以及语言的句法维度。而通道维度是模态无关的。在自监督学习中,masked modeling [1] 或者以 masking 作为数据增强 [2] 已经成为一种有效的学习方式。然而这些操作都作用于序列维度。为了能够广泛应用于不同数据模态,本文提出一种作用于通道维度的数据增强手段:随机量化(randomized quantization)。每个通道中的数据通过非均匀量化器进行动态量化,量化值是从随机划分的区间中随机采样的。通过这种方式,落在同一个区间内原始输入的信息差被删除,同时不同区间数据的相对大小被保留,从而达到 masking 的效果。

该方法在各种不同数据模态上超过了已有任意模态自监督学习方法,包括自然图像、3D 点云、语音、文本、传感器数据、医疗图像等。在多种预训练学习任务中,例如对比学习(例如 MoCo-v3)和自蒸馏自监督学习(例如 BYOL)都学到了比已有方法更优的特征。该方法还经过验证,适用于不同的骨干网络结构,例如 CNN 和 Transformer。

方法

量化(Quantization)指的是利用一组离散的数值表征连续数据,以便于数据的高效存储、运算以及传输。然而,一般的量化操作的目标是在不损失精确度的前提下压缩数据,因而该过程是确定性的,而且是设计为与原数据尽量接近的。这就限制了其作为增强手段的强度和输出的数据丰富程度。

本文提出一种随机量化操作(randomized quantization),将输入的每个 channel 数据独立划分为多个互不重叠的随机区间(
),并将落在各个区间内的原始输入映射到从该区间内随机采样的一个常数

随机量化作为自监督学习任务中 masking 通道维度数据的能力取决于以下三个方面的设计:1) 随机划分数值区间;2) 随机采样输出值以及 3)划分的数值区间个数。

具体而言,随机的过程带来了更加丰富的样本,同一个数据每次执行随机量化操作都可以生成不同的数据样本。同时,随机的过程也带来对原始数据更大的增强力度,例如随机划分出大的数据区间,或者当映射点偏离区间中值点时,都可以导致落在该区间的原始输入和输出之间的更大差异。

除此之外,也可以非常容易地通过适当减少划分区间的个数,提高增强力度。这样,当应用于 Siamese 表征学习的时候,两个网络分支就可以见到有足够信息差异的输入数据,从而构建足够强的学习信号,帮助到特征学习。

下图可视化了不同数据模态在使用了该数据增强方式之后的效果:

实验结果

模态 1:图像

本文在 ImageNet-1K 数据集上评估了 randomized quantization 应用于 MoCo-v3 和 BYOL 的效果,评测指标为 linear evaluation。当作为唯一的数据增强方式单独使用的时候,即将本文的 augmentation 应用于原始图像的 center crop,以及和常见的 random resized crop(RRC)配合使用的时候,该方法都取得了比已有通用自监督学习方法更好的效果。

相比于已有的针对图像数据开发的数据增强方式,例如 color jittering (CJ),本文的方法有着明显的性能优势。同时,该方法也可以取代 MoCo-v3/BYOL 中一系列复杂的数据增强方式(Full),包括颜色抖动(color jittering)、随机灰度化(gray scale)、随机高斯模糊(Gaussian blur)、随机曝光(solarization),并达到与复杂数据增强方式类似的效果。

模态 2:3D 点云

本文还在 ModelNet40 数据集的分类任务和 ShapeNet Part 数据集的分割任务上验证了 randomized quantization 相对于已有自监督工作的优越性。尤其在下游训练集数据量较少的情况下,本文的方法显著超过已有点云自监督算法。

模态 3:语音

在语音数据集上本文的方法也取得了比已有自监督学习方法更优的性能。本文在六个下游数据集上验证了该方法的优越性,其中在最难的数据集 VoxCeleb1 上(包含最多且远超其他数据集的类别个数),本文方法取得了显著的性能提升(5.6 个点)。

模态 4:DABS

DABS 是一个模态通用自监督学习的基准,涵盖了多种模态数据,包括自然图像、文本、语音、传感器数据、医学图像、图文等。在 DABS 涵盖的多种不同模态数据上,我们的方法也优于已有的任意模态自监督学习方式。

感兴趣的读者可以阅读论文原文,了解详细的研究内容。

参考文献:

[1] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018. 1, 2

[2] Zhirong Wu, Zihang Lai, Xiao Sun, and Stephen Lin. Ex- treme masking for learning instance and distributed visual representations. arXiv preprint arXiv:2206.04667, 2022. 1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/111672.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

免费小程序商城搭建之b2b2c o2o 多商家入驻商城 直播带货商城 电子商务b2b2c o2o 多商家入驻商城 直播带货商城 电子商务

1. 涉及平台 平台管理、商家端(PC端、手机端)、买家平台(H5/公众号、小程序、APP端(IOS/Android)、微服务平台(业务服务) 2. 核心架构 Spring Cloud、Spring Boot、Mybatis、Redis 3. 前端框架…

MyBatis实验(四)——关联查询

前言 多表关联查询是软件开发中最常见的应用场景,多表查询需要将数据实体之间的一对多、多对多、一对一的关系的转换为复杂的数据对象。mybaits提供的association和collection元素,通过映射文件构造复杂实体对象,在构造实体过程中&#xff0…

leetcode 155. 最小栈

2023.10.31 本题关键在于要求在能在常数时间内检索出最小元素。 其他四个方法都可以用普通的栈进行实现,最后一个方法“获取堆栈中最小元素” 可以借助一个新栈,专门用于存储栈中最小值的。具体细节看java代码: class MinStack {private De…

一百九十八、Java——IDEA项目中有参构造、无参构造等快捷键(持续梳理中)

一、目的 由于IDEA项目中有很多快捷键,可以很好的提高开发效率,因此整理一下 二、快捷键 (一)快捷键生成public static void main(String[] args) {} 快捷键:psvm (二)快捷键在test中创建cn…

Linux服务器使用GPU技巧

进行深度学习实验的时候用pytorch-gpu,经常要与GPU打交道; 所以经常遇到奇奇怪怪的问题; 查看GPU占用情况 watch -n 10 nvidia-smi 使用技巧 torch.nn.DataParallel() CLASStorch.nn.DataParallel(module, device_idsNone, output_devic…

AntDB数据库荣获 “2023年信创物联网优秀服务商”

日前,在2023世界数字经济大会暨第十三届智博会 2023京甬信创物联网产融对接会上,AntDB数据库再获殊荣,获评“2023年信创物联网优秀服务商”。 图1:2023年信创物联网优秀服务商颁奖现场 信创物联网是信息技术应用创新与物联网的结…

mac录屏快捷键指南,轻松录制屏幕内容!

“大家知道mac电脑有录屏快捷键吗,现在录屏不太方便,每次都花很多时间,要是有录屏快捷键,应该会快速很多,可是哪里都找不到,有人知道吗?帮帮我!” 苹果的mac电脑以其精美的设计和卓…

java商城免费搭建 VR全景商城 saas商城 b2b2c商城 o2o商城 积分商城 秒杀商城 拼团商城 分销商城 短视频商城

1. 涉及平台 平台管理、商家端(PC端、手机端)、买家平台(H5/公众号、小程序、APP端(IOS/Android)、微服务平台(业务服务) 2. 核心架构 Spring Cloud、Spring Boot、Mybatis、Redis 3. 前端框架…

波浪理论第3波anzo capital昂首资本3个方法3秒确认

要想通过波浪理论在交易中赚取最大利润,确认第三波必不可少,因为第三波通常是趋势中最大和最强的一波,今天anzo capital昂首资本3个方法3秒确认。 首先,第一个确认方法—斜率。 通常,第三波的斜率会比第一波更陡峭&a…

钡铼技术助力ARM工控机在智慧交通中的创新应用

在交通运输领域,钡铼技术ARM工控机可以实现以下功能: 实时监控和管理:利用钡铼技术ARM工控机,可以对交通运输中的车辆、船只、飞机等进行实时监测和管理,帮助调度员提高车辆调度和路线规划的准确性和效率。 安全保障&…

查看局域网内另外一个电脑屏幕

查看局域网内另外一个电脑屏幕是一个相对简单但实用的技术。在局域网中,我们可以使用远程桌面、网络发现和共享、软件等技术来实现这一目标。 今天重点讲解一下,如何通过域之盾软件来查看另一个电脑屏幕: 1、部署软件,安装提示一…

软件测试优秀的测试工具,会用三款工作效率能提升一半

我们将常用的测试工具分为10类。 1. 测试管理工具 2. 接口测试工具 3. 性能测试工具 4. C/S自动化工具 5.白盒测试工具 6.代码扫描工具 7.持续集成工具 8.网络测试工具 9.app自动化工具 10.web安全测试工具 注:工具排名没有任何意义。 大多数初学者&…

众和策略:微软大动作

当地时间周二,美股首要指数全线收涨。但从月度数据来看,美股首要指数录得“三连跌”,10月份,道指跌1.36%,标普500指数跌2.2%,纳指跌2.78%。其间,标普和道指均为2020年3月以来初次呈现三个月连跌…

Unity 粒子特效-第四集-光球闪烁特效

一、特效预览 二、制作原理 光球素材资源 链接:https://pan.baidu.com/s/1XzWpQU2zX_wupMXSW7RxwA?pwdvu5r 提取码:vu5r 1.素材介绍 仔细看,我们的粒子贴图是(如下),一颗球球 2.步骤介绍 1.光球动画的…

Zynq UltraScale+ XCZU5EV 纯VHDL解码 IMX214 MIPI 视频,2路视频拼接输出,提供vivado工程源码和技术支持

目录 1、前言免责声明 2、我这里已有的 MIPI 编解码方案3、本 MIPI CSI2 模块性能及其优越性4、详细设计方案设计原理框图IMX214 摄像头及其配置D-PHY 模块CSI-2-RX 模块Bayer转RGB模块伽马矫正模块VDMA图像缓存Video Scaler 图像缓存DP 输出 5、vivado工程详解PL端FPGA硬件设计…

【设计模式】第25节:行为型模式之“访问者模式”

一、简介 访问者模式允许一个或者多个操作应用到一组对象上,设计意图是解耦操作和对象本身,保持类职责单一、满足开闭原则以及应对代码的复杂性。 二、优点 分离操作和数据结构增加新操作更容易集中化操作 三、适用场景 数据结构稳定,操…

职场好物:乐歌M9S升降办公电脑台,告别久坐办公,升职加薪就选它

办公是现代生活不可避免的组成部分,科技的快速发展,给了我们更多新的生活方式,促使我们更加关注自己的身体状况,我们挨过了饭都吃不饱的年代,随着办公人群的不断扩张,不知道你有没有发现身边人或多或少都有…

光学雨量计:更灵敏可靠、更智能的降雨监测工具

光学雨量计:更灵敏可靠、更智能的降雨监测工具 降雨量信息是评估大气环境和降水研究的关键指标,也是环境监测和农业安全监测的重要参数。目前,我们通常使用翻斗式或光学雨量计来监测降雨量,这些工具能够感知自然界的降雨量&#…

数据智能化管理:企业网站备案信息API的应用案例

引言 在数字化时代,企业备案信息管理变得愈发重要。无论是为了合规性还是提高业务运营效率,企业都需要有效管理其网站备案信息。幸运的是,现代技术为企业提供了强大的工具,如企业网站备案信息API,可帮助他们更智能地管…

pycharm怎么运行python代码

创建项目 在PyCharm中,你可以创建一个项目来组织和管理你的Python代码。项目是一个存放代码文件的文件夹,它可以包含多个模块和包。 启动PyCharm后,选择“Create New Project”来创建一个新项目。 在弹出的对话框中,选择项目的位…