CV每日论文--2024.4.11

1、InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD

中文标题:InternLM-XComposer2-4KHD:开创性的大型视觉语言模型,可处理从 336 像素到 4K 高清的分辨率

简介:这篇论文介绍了InternLM-XComposer2-4KHD,这是LVLM(大规模视觉-语言模型)领域的一项开创性探索,旨在提升LVLM的分辨率能力,将其推向4K HD(3840 x 1600)及以上水平。同时,为了适应不同情况下的需求,该模型支持从336像素到4K标准的多种分辨率,极大地拓宽了应用范围。具体而言,该研究引入了一种新的扩展技术——动态分辨率与自动块配置,以推动补丁分割的进展。该技术能够保持训练图像的宽高比,并根据预先训练的Vision Transformer(ViT)(336 x 336)自动调整块的数量和布局,从而实现从336像素到4K标准的动态训练分辨率。研究结果表明,将训练分辨率扩展到4K HD能够持续提升性能,而且还没有达到潜在改进的上限。在16个基准测试中,InternLM-XComposer2-4KHD展现出了10个测试超越或与GPT-4V和Gemini Pro相媲美的出色能力。InternLM-XComposer2-4KHD模型系列(拥有7B参数)可以在此GitHub链接上公开获取。

2、Flying With Photons: Rendering Novel Views of Propagating Light

中文标题:与光子一起飞行:渲染传播光的新观点

简介:我们提出了一种成像和神经渲染技术,旨在从新颖的、移动的摄像机视角合成场景中光的传播视频。我们的方法依赖于一种新型的超快成像设备,以皮秒级的时间分辨率捕获首个多视角视频数据集。结合该数据集,我们介绍了一种基于瞬态场的高效神经体积渲染框架。该瞬态场被定义为从三维点和二维方向到高维、离散时间信号的映射,用于表示超快时间尺度下的时间变化辐射度。通过使用瞬态场进行渲染,我们自然地考虑了光的有限传播速度引起的效应,包括由于光传播延迟到相机引起的视角相关外观变化。我们渲染了一系列复杂效果,包括散射、镜面反射、折射和衍射。此外,我们还展示了使用时间扭曲过程消除视角相关的传播延迟、相对论效应的渲染,以及直接和全局光传输的视频合成。

3、Learning State-Invariant Representations of Objects from Image Collections with State, Pose, and Viewpoint Changes

中文标题:从具有状态、姿势和视点变化的图像集合中学习对象的状态不变表示

简介:我们引入了一种称为状态不变性的不变性概念,以增强物体表示的学习,以便进行识别和检索。状态不变性指的是对物体结构形式的变化具有鲁棒性,例如当伞被折叠或衣物被扔在地板上时。尽管存在这样的状态变化,人类通常可以轻松识别物体,这引发了一个问题:我们是否能够设计出具备类似能力的神经结构。为了解决这个问题,我们提出了一个新颖的数据集,名为ObjectsWithStateChange,该数据集记录了从任意视角观察的物体图像中的状态和姿态变化。我们相信,这个数据集将有助于细粒度物体识别和检索的研究,以及具有状态变化能力的物体的检索。我们的研究目标是训练模型,能够生成物体嵌入,并在状态变化的同时对视角、姿态、照明等变换保持不变性。为了展示ObjectsWithStateChange数据集的实用性,我们还提出了一种课程学习策略,该策略利用每个阶段学习的嵌入空间中的相似性关系来指导训练过程。该模型通过比较不同类别内部和跨类别的视觉相似物体来学习具有区分性的特征,以鼓励它区分由于状态变化而具有挑战性的物体。我们相信,这种策略增强了模型捕捉细粒度任务中具有区分性特征的能力,这些任务可能涉及具有状态变化的物体,并在我们的新数据集以及ModelNet40和ObjectPI等其他具有挑战性的多视图数据集上提高了物体级任务的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/536609.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OJ 变长编码 【C】

又是跌跌撞撞完成的一道题,我对于位运算和进制转化这块知识点太欠缺了,写了这么久c的题目也没用过几次 知识点 1.取出低七位bit 使用&位运算符 与0x7F可以取出当前数的二进制最低七位,这里即使是整数参与运算,也会自动被转换…

社交革命的引领者:探索Facebook的创新策略

1. 引言:社交媒体的崛起 社交媒体的兴起标志着信息时代的到来,它不仅改变了人们的生活方式,也影响着整个社会结构。作为社交媒体的先驱者,Facebook以其创新的策略和领先的技术,成为了这场社交革命的引领者。从2004年马…

Shenandoah GC算法

概述 最早由Red Hat公司发起,目标是利用现代多核CPU的优势,减少大堆内存在GC时产生的停顿时间。随OpenJDK 12一起发布,暂停时间不依赖于堆的大小;这意味着无论堆的大小如何,暂停时间都是差不多的。 Shenandoah最初的…

[C++][算法基础]图中点的层次(树图BFS)

给定一个 n 个点 m 条边的有向图,图中可能存在重边和自环。 所有边的长度都是 1,点的编号为 1∼n。 请你求出 1 号点到 n 号点的最短距离,如果从 1 号点无法走到 n 号点,输出 −1。 输入格式 第一行包含两个整数 n 和 m。 接…

【MCU开发规范】:MCU的性能测试

MCU的性能测试 前序性能评判方法MIPSCoreMark EEMBC其他参考 前序 我们平时做MCU开发时,前期硬件选型(选那颗MCU)基本由硬件工程师和架构决定,到软件开发时只是被动的开发一些具体功能,因此很少参与MCU的选型。 大部分…

Ant Desgin Vue Tree Tab 个性化需求

背景 个人对前端不是很熟,或者说过目就忘,但是对前端还要求不少,这就难搞了。 使用的前端是Mudblazor和ant design vue, Mudblazor 还没有开始搞,现在先用ant design vue,版本是vue3, ant design vue 4版…

4.11学习总结

一.IO流 一.java中IO的初步了解 (一).概念: Java中I/O操作主要是指使用Java进行输入,输出操作. Java所有的I/O机制都是基于数据流进行输入输出,这些数据流表示了字符或者字节数据的流动序列。Java的I/O流提供了读写数据的标准方法。任何Java中表示数据…

Excel·VBA二维数组S形排列

与之前的文章《ExcelVBA螺旋数组函数》将一维数组转为二维螺旋数组 本文将数组转为S形排列的二维数组,类似考场座位S形顺序 Function S形排列(ByVal arr, ByVal num_rows&, ByVal num_cols&, Optional ByVal mode$ "row")将数组arr转为num_rows…

必须掌握的这4种缓存模式

概述 在系统架构中,缓存可谓提供系统性能的简单方法之一,稍微有点开发经验的同学必然会与缓存打过交道,起码也实践过。 如果使用得当,缓存可以减少响应时间、减少数据库负载以及节省成本。但如果缓存使用不当,则可能…

有趣的css - 动态雷达扫描

大家好,我是 Just,这里是「设计师工作日常」,今天分享的是使用 css 实现一个动态的雷达扫描,快学起来吧! 《有趣的css》系列最新实例通过公众号「设计师工作日常」发布。 目录 整体效果核心代码html 代码css 部分代码…

当然IP总流量卵化手14无线天线上实际操作夏令营【第9期】月入5w 上百万爆款打造 (74节)

在2023年,我依照导师的”项目销售”策略,成功地实现了超过100万的纯利润。在当前经济低迷的大环境下,许多大型企业纷纷裁员,这使得许多人面临着找不到满意工作的困境。与此同时,由于疫情引发的口罩需求,使得…

算法刷题Day31 | 455.分发饼干、376. 摆动序列、53. 最大子数组和

目录 0 引言1 分发饼干1.1 我的解题1.2 更好的解题 2 摆动序列2.1 我的解题2.2 我的错误原因(GPT分析)2.3 改进 3 最大子数组和3.1 我的解题 🙋‍♂️ 作者:海码007📜 专栏:算法专栏💥 标题&…

爬虫实战:我国城市的地铁数据以及分析

文章目录 1 引言2 项目背景3 技术栈和工具选择4 数据爬取4.1 爬虫设计4.2 代码实现4.3 数据保存4.4 关键点分析 5 数据处理与分析5.1 数据清洗5.2 数据分析5.3 关键点分析 6 完整代码以及结果展示7 小分享 1 引言 本文将指导你如何通过Python从高德地图爬取中国城市地铁站数据…

5G-A有何能耐?5G-A三载波聚合技术介绍

2024年被称作5G-A元年。5G-A作为5G下一阶段的演进技术,到底有何能耐呢? 三载波聚合(3CC)被认为是首个大规模商用的5G-A技术,将带来手机网速的大幅提升。 █ 什么是3CC 3CC,全称叫3 Component Carriers…

前端js基础知识(八股文大全)

一、js的数据类型 值类型(基本类型):数字(Number)、字符串(String)、布尔(Boolean)、对空(Null)、未定义(Undefined)、Symbol,大数值类型(BigInt) 引用数据类型:对象(Object)、数组…

HNUST湖南科技大学嵌入式开发板使用-2024

目录 1.需要准备的软件(版本必须相同)꒰ঌ( ⌯ ⌯)໒꒱ 2.下载链接地址⌯▾⌯ 3.软件安装教程 4.安装好了,正常情况会是什么样子呢?(๑•̌.•๑) 4.1.拆入第一个接口(串口com接口是用来上传代码的ฅ˙Ⱉ˙ฅ) 4.2.拆入第三个接口(SWD Jlink口…

android android.permission.MANAGE_EXTERNAL_STORAGE使用

android11 及以上版本&#xff0c;如果release版本要读取外部存储公共目录&#xff0c;即sdcard公共目录&#xff0c;需要在androidManifest.xml下申明 <uses-permission android:name"android.permission.MANAGE_EXTERNAL_STORAGE" /> 如果要发版到海外&…

数据资产与数据要素的重要性及数据资产入表的实践指南

## 引言在当今快速发展的数字化时代&#xff0c;数据资产已经成为企业最宝贵的资源之一。数据资产不仅对企业的运营决策有着至关重要的影响&#xff0c;而且在企业的财务健康和市场竞争力方面扮演着核心角色。数据要素&#xff0c;作为构成数据资产的基本单元&#xff0c;其管理…

Centos Docker Oracle11g 密码过期修改

症状&#xff1a; Centos Oracle11g环境变量配置 如果没有配置环境变量&#xff0c;需要先配置Oracle环境变量&#xff0c;否则执行sqlplus时会提示&#xff1a;SP2-0750: You may need to set ORACLE_HOME to your Oracle software directory 配置方法&#xff1a; 第一步&a…

C++ 2024-4-2 作业

1.模板类实现顺序栈 #include <iostream> #define MAX 8 using namespace std; template<typename T> class stack {T data[MAX];int top; public:stack():top(-1){}bool empty_stack();bool full_stack();void push_stack(T data);void pop_stack();void show();…