MIT的研究人员最近开发了一种名为“FeatUp”的新算法,这一突破性技术为计算机视觉领域带来了高分辨率的洞察力

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

想象一下,你短暂地注视着繁忙的街道,然后试图根据记忆绘制你所看到的场景。大多数人能够大致绘制出车辆、人和斑马线等主要物体的位置,但几乎没有人能够以像素级完美的精度绘制出每一个细节。对于大多数现代计算机视觉算法来说,情况也是如此:它们擅长捕捉场景的高层次细节,但在处理信息时会丢失细粒度的细节。

现在,麻省理工学院(MIT)的研究人员创建了一个名为“FeatUp”的系统,允许算法同时捕获场景的高层次和低层次细节——几乎就像是计算机视觉的Lasik眼科手术。

当计算机通过查看图像和视频学会“看”时,它们通过所谓的“特征”构建对场景中物体的“理念”。为了创建这些特征,深度网络和视觉基础模型将图像分解成一个个小方格,并将这些方格作为一个组处理,以确定照片中正在发生的事情。每个小方格通常由16到32个像素组成,因此这些算法的分辨率远小于它们处理的图像。在试图总结和理解照片时,算法会丢失大量的像素清晰度。

FeatUp算法可以阻止这种信息损失,并提升任何深度网络的分辨率,而不会影响速度或质量。这使研究人员能够快速轻松地提高任何新的或现有算法的分辨率。例如,尝试解释肺癌检测算法的预测,目标是定位肿瘤。在使用类似类激活映射(CAM)的方法解释算法之前应用FeatUp,可以显著更详细地(16-32倍)查看模型可能定位的肿瘤位置。

FeatUp不仅帮助从业者理解他们的模型,而且还可以改善各种不同的任务,如物体检测、语义分割(为图像中的像素与对象标签赋予标签)和深度估计。通过提供更准确的高分辨率特征,它实现了这一点,这些特征对于构建从自动驾驶到医学成像的视觉应用至关重要。

“所有计算机视觉的本质都在于这些从深度学习架构的深处涌现出的深刻、智能的特征。现代算法的一大挑战是它们将大型图像缩小为非常小的‘智能’特征网格,获得智能洞察但失去更细微的细节,”麻省理工学院电气工程与计算机科学博士生、MIT计算机科学与人工智能实验室(CSAIL)附属成员,以及该项目论文共同首席作者之一的Mark Hamilton说。“FeatUp帮助实现了两全其美的情况:具有原始图像分辨率的高度智能表现。这些高分辨率特征显著提高了从增强物体检测到改善深度预测的一系列计算机视觉任务的性能,通过高分辨率分析提供了对网络决策过程的更深入理解。”

团队指出,PyTorch中可用的标准工具无法满足他们的需求,并在他们寻求快速有效解决方案的过程中引入了一种新类型的深度网络层。他们的自定义层,一种特殊的联合双边上采样操作,在PyTorch中的朴素实现中效率提高了100倍以上。团队还展示了这个新层可以改进包括语义分割和深度预测在内的多种不同算法。这一层提高了网络处理和理解高分辨率细节的能力,给任何使用它的算法带来了显著的性能提升。

“另一个应用是所谓的小物体检索,我们的算法允许精确定位物体。例如,在杂乱的道路场景中,通过FeatUp丰富的算法可以看到微小物体,如交通锥、反光器、灯和坑洞,而它们的低分辨率同类则失败了。这展示了它将粗糙特征增强为精细信号的能力,”加利福尼亚大学伯克利分校的博士生Stephanie Fu '22, MNG '23,也是新FeatUp论文的另一位共同首席作者说。“这对于时间敏感的任务尤为关键,如在杂乱的高速公路上定位交通标志。这不仅可以通过将广泛的猜测转化为精确的定位来提高这类任务的准确性,而且可能还会使这些系统更可靠、可解释和值得信赖。”

社区及其它领域内的潜在广泛应用,类似于数据增强实践。“目标是将这种方法作为深度学习中的基本工具,丰富模型以更细致的细节感知世界,而不会带来传统高分辨率处理的计算效率低下,”Fu说。

“FeatUp代表了向着使视觉表示真正有用迈出的美妙进步,通过以完整图像分辨率产生它们,”康奈尔大学计算机科学教授Noah Snavely说,他没有参与这项研究。“在过去几年中,学习到的视觉表示变得非常好,但它们几乎总是以非常低的分辨率产生——你可能会输入一个漂亮的全分辨率照片,然后得到一个微小的、邮票大小的特征网格。如果你想在产生全分辨率输出的应用中使用这些特征,这就是一个问题。FeatUp以一种创造性的方式解决了这个问题,将超分辨率中的经典想法与现代学习方法相结合,产生了美丽的、高分辨率的特征图。”

“我们希望这个简单的想法可以有广泛的应用。它提供了我们之前认为只能是低分辨率的图像分析的高分辨率版本,”麻省理工学院电气工程与计算机科学教授、CSAIL成员的高级作者William T. Freeman说。

首席作者Fu和Hamilton与麻省理工学院的博士生Laura Brandt SM '21、Axel Feldmann SM '21以及Zhoutong Zhang SM '21, PhD '22一起,他们都是MIT CSAIL的现任或前任成员。他们的研究部分得到了国家科学基金会研究生奖学金、国家科学基金会和国家情报总监办公室的支持,以及美国空军研究实验室和美国空军人工智能加速器的支持。该小组将在5月份的国际学习表示会议上展示他们的工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/477217.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vuecli创建vue3项目

第一步: 在文件夹中输入 vue create xxx 第二步: 勾选下面带有*号的,经验最好把Linter/Formatter勾掉,不然会出现eslint报错 第三步: 选择3.x 第四步: 意思为是否用history模式来创建路由&#xff0…

mineadmin前端安装启动

在上一篇文章中, 我们已经搭建好了后端环境并启动 mineadmin 快速安装部署(docker环境) 一、下载前端项目 1、在搭建后端时候,使用php bin/hyperf.php mine:install 的时候,有一个步骤是安装前端项目的。安装目录为&a…

【有源码】buildroot根文件系统编译和常见问题

前言 编译好的含有QT5等工具包的buildroot根文件 仓库:https://gitee.com/wangyoujie11/atkboard_-linux_-driver 编译过程如下 1.下载源码,解压tar -vxjf xxx.tar.bz2 https://buildroot.org/ 这里以如下版本实验 2.在解压之后的buildroot-2019.02.…

智慧公厕的系统构成与功能解析

智慧公厕系统是通过传感器和云平台相结合的创新技术,旨在提供更好的公厕管理与服务。智慧公厕从系统的构成来看,主要分为感知层(数据收集)、传输层(数据传输)、平台层(数据处理)和应…

【vue-小知识】var、let 和 const之间的区别

文章目录 结论1、重复定义变量名var:允许重复定义变量名let和const:不可以重复定义变量名 2、修改值var:允许修改值let:允许修改值const:不允许修改值,会报错 3、变量提升var : 支持变量提升let和const&…

查看VMWare ESXi 6.5/6.7服务器上 GPU直通的状态

VMWare ESXi 6.5/6.7服务器状态 查看配置参数

Google的MELON: 通过未定位图像重建精确3D模型的突破性算法

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

OFC2023活动剪影

马上就要OFC 2024了,应该有些新图可以发一发了 先发点老图,丢在这里,怕下次不知道去哪里找 以上是以太网联盟Ethernet Alliance 在OFC2023上展示的一个演示机柜 以下是我们参与OFC2023的剪影,除了参与EA的演示,还有独…

从错误中进行上下文学习

1、写作动机: 在上下文学习中,也称为少样本提示(ICL),一直是调整LLM适应下游任务的标准方法,通过从少量输入-输出示例中学习。然而,所有基于ICL的方法都只从正确的输入-输出对中学习。 2、主要…

京东云开发者:DDD 学习与感悟 —— 向屎山冲锋

原文地址:https://mp.weixin.qq.com/s/Hvq1ttBopbxypatVcKcLiA 软件系统是通过软件开发来解决某一个业务领域或问题单元而产生的一个交付物。而通过软件设计可以帮助我们开发出更加健壮的软件系统。因此,软件设计是从业务领域到软件开发之间的桥梁。而DDD是软件设计…

基于ARM 的Linux系统的交叉编译

返回:OpenCV系列文章目录(持续更新中......) 上一篇:在 MacOS 中安装 下一篇:MultiArch与Ubuntu/Debian 的交叉编译 警告 本教程可以包含过时的信息。 此步骤已在 Ubuntu Linux 12.04 上进行了测试,但应…

JAVA 获取系统当前时间、时间格式互相转化工具类,2024百度Java岗面试真题收录解析

DateTimeFormatter ftf DateTimeFormatter.ofPattern(“yyyy-MM-dd HH:mm:ss”); LocalDateTime parse LocalDateTime.parse(strTime, ftf); return LocalDateTime.from(parse).atZone(ZoneId.systemDefault()).toInstant().toEpochMilli(); } //通过LocalDateTime获取当…

【论文精读】OTA: Optimal Transport Assignment for Object Detection(物体探测的最优传输分配)

OTA最优传输 🚀🚀🚀摘要一、1️⃣ Introduction---介绍二、2️⃣Related Work---相关工作2.1 🎓 Fixed Label Assignment--静态标签分配2.2 ✨Dynamic Label Assignment--动态标签分配 三、3️⃣Method---论文方法3.1 &#x1f39…

CPP容器vector和list,priority_queue定义比较器

#include <iostream> #include <bits/stdc.h> using namespace std; struct VecCmp{bool operator()(int& a,int& b){return a>b;/*** 对于vector和list容器&#xff0c;这里写了&#xff1e;就是从大到小* 对于priority_queue容器&#xff0c;这里写…

Linux第82步_“gpio子系统”下的使用KEY开关灯

使用新字符设备驱动的一般模板和“gpio子系统”&#xff0c;以及设备树&#xff0c;驱动KEY和LED。 1、在stm32mp157d-atk.dts文件中添加“gpio_led”和“key0”节点 打开虚拟机上“VSCode”&#xff0c;点击“文件”&#xff0c;点击“打开文件夹”&#xff0c;点击“zgq”&…

QChart/QChartView—绘制多组柱状图

void Widget::initChartBar() {// 创建柱状图QChart* pChart new QtCharts::QChart();pChart->setTitle("Multiple Bar Chart with Dates");// 创建柱状图序列QBarSeries* pSeries new QtCharts::QBarSeries();// 启用柱状图标签显示,可以把数据显示柱状图上pSe…

ETCD跨城容灾与异地多活网络故障的相关表现分析

ETCD跨城容灾与异地多活网络故障的相关表现分析 1. 网络架构2. 单个网络中断-跟leader区中断2.1. 网络中断2.2. 网络恢复 3. 单个网络中断-跟非leader区中断4. 两个网络中断-leader区中断5. 两个网络中断-非leader区中断6. 两个网络中断-非leader区中断7. 总结8. 参考文档 etcd…

阿里云2024最新优惠:WoSign SSL证书首购4折

阿里云SSL证书 2024 最新优惠来啦&#xff01;阿里云SSL证书新用户&#xff0c;wosign SSL证书低至4折&#xff0c;WoSign SSL提供全球信任RSA SSL证书和国密算法SM2 SSL证书&#xff01;阿里云官网官方优惠&#xff0c;需要开年采购SSL证书的用户抓紧申请这波优惠&#xff01;…

基于微信小程序的电影票务系统

文章目录 项目介绍主要功能截图&#xff1a;部分代码展示设计总结项目获取方式 &#x1f345; 作者主页&#xff1a;超级无敌暴龙战士塔塔开 &#x1f345; 简介&#xff1a;Java领域优质创作者&#x1f3c6;、 简历模板、学习资料、面试题库【关注我&#xff0c;都给你】 &…

工控机丨丨工业电脑丨工控计算机丨工业一体机丨什么是工业一体机

工业一体机俗称工控机&#xff0c;是一种专门为工业应用而设计的计算机设备&#xff0c;主要应用于工厂、车间、仓库等工业场所。此外工控机还叫做工控计算机&#xff0c;通常采用工业级主板、工业级CPU、工业级硬盘、工业级内存和工业级电源等硬件组件&#xff0c;以确保其在高…