大模型日报|今日必读的6篇大模型论文

请添加图片描述

大家好,今日必读的大模型论文来啦!

1.英伟达提出LATTE3D:更快、更好的“文生3D”方法

近来,由文本到 3D 生成的方法可以生成令人印象深刻的 3D 效果,但这个过程需要耗时的优化过程,每个提示(prompt)可能需要一个小时。为了改善这种现象,ATT3D 等摊销方法可同时优化多个提示,从而提高效率,实现快速的文本到 3D 合成。但是,这些方法无法捕捉高频几何和纹理细节,难以扩展到大型提示集,因此通用性较差。

为此,英伟达推出了 LATTE3D,在更大的提示集上实现了快速、高质量的生成。该方法的关键在于:1)建立一个可扩展的架构;2)在优化过程中,通过 3D 感知扩散先验、形状正则化和模型初始化来利用 3D 数据,从而实现对各种复杂训练提示的鲁棒性。

据介绍,LATTE3D 对神经场和纹理曲面生成进行了摊销,只需一次前向传递即可生成高度精细的纹理网格。

结果表明,该方法可在 400 毫秒内生成 3D 物体,并可通过快速测试时间优化进一步提高性能。

论文链接:
https://arxiv.org/abs/2403.15385
项目地址:
https://research.nvidia.com/labs/toronto-ai/LATTE3D/

2.好过GPT-4V,上海AI Lab推出视频基础模型InternVideo2

近日,上海 AI Lab 推出了一种新的视频基础模型(ViFM)——InternVideo2,该模型在动作识别、视频类文本任务和以视频为中心的对话方面达到了 SOTA。

这种模型采用渐进式训练范式,将遮蔽视频 token 重建、跨模态对比学习和下一个 token 预测等不同的自监督或弱监督学习框架统一起来,不同的训练阶段将引导该模型通过不同的前置任务捕捉不同层次的结构和语义信息。在数据层面,研究团队通过语义分割视频和生成视频-音频-语音字幕,优先考虑时空一致性,并对 InternVideo2 的数据和模型大小进行了扩展。

通过大量实验,该团队验证了此模型的有效性,并在 60 多项视频和音频任务中达到了 SOTA。值得注意的是,该模型在各种与视频相关的字幕、对话和长视频理解基准测试中的表现都优于其他模型,突出了其推理和理解长时间语境的能力。

论文链接:
https://arxiv.org/abs/2403.15377

3.UC伯克利新研究:利用迭代数据增强提升大模型

目前,预训练大型语言模型(LLM)是解决绝大多数自然语言处理任务的最先进方法。虽然现实世界中的许多应用仍需要微调才能达到令人满意的性能水平,但其中许多应用都处于低数据水平,这使得微调具有挑战性。

为了解决这个问题,UC 伯克利团队提出了 LLM2LLM,这是一种有针对性的迭代数据增强策略,它使用教师 LLM 来增强小型种子数据集,通过增强额外的数据来对特定任务进行微调。LLM2LLM 运行步骤如下:(1)在初始种子数据上微调基准学生 LLM 模型;(2)评估并提取模型出错的数据点;(3)使用教师 LLM 根据这些错误数据点生成合成数据,然后将其添加回训练数据中。这种方法放大了 LLM 在训练过程中预测错误的数据点信号,并将其重新整合到数据集中,以便 LLM 专注于更具挑战性的示例。

研究结果表明,LLM2LLM 显著提高了 LLM 在低数据机制中的性能,其表现优于传统的微调和其他数据增强基线。此外,LLM2LLM 还减少了对劳动密集型数据整理的依赖,有助于创建更具可扩展性和性能的 LLM 解决方案,使用户能够应对数据受限的领域和任务。

论文链接:
https://arxiv.org/abs/2403.15042
GitHub 地址:
https://github.com/SqueezeAILab/LLM2LLM

4.微软提出状态空间模型SiMBA:好于Mamba,接近Transformer

Transformer 已广泛采用注意力网络用于序列混合,采用 MLPs 进行通道混合,在实现跨领域突破方面发挥了关键作用。

然而,最近很多学者强调了注意力网络的问题,包括低感应偏差和与输入序列长度有关的二次复杂性。为解决上述问题,学者们提出了状态空间模型(SSM),如 S4 和其他模型(Hippo、Global Convolutions、liquid S4、LRU、Mega 和 Mamba),从而帮助处理更长的序列长度。例如,Mamba 虽然是最先进的 SSM,但在扩展到计算机视觉数据集的大型网络时存在稳定性问题。

为此,微软团队提出了新架构 SiMBA ,将 Einstein FFT(EinFFT)引入 ,通过特定的特征值计算进行信道建模,并使用 Mamba 块进行序列建模。

基于图像和时间序列基准进行的广泛性能研究表明,SiMBA 的性能优于现有的 SSM,缩小了与最先进 transformer 的性能差距。值得注意的是,SiMBA 在 ImageNet 和迁移学习基准(如 Stanford Car 和 Flower)、任务学习基准以及七个时间序列基准数据集上取得了 SOTA。

论文链接:
https://arxiv.org/abs/2403.15360

5.亚马逊提出大规模视频语言对齐方法VidLA

传统的视频语言对齐方法存在两大局限。首先,这些方法无法捕捉短程和长程时间的依赖性,它们通常采用复杂的分层深度网络架构,很难与现有的预训练图像-文本基础模型集成。

为了有效解决这一局限性,亚马逊研究团队提出了大规模视频语言对齐方法 VidLA,采用了简单的网络架构,并使用一组以分层方式在不同时间分辨率下运行的数据 token,从而考虑视频的时间分层性质。通过采用简单的双塔架构,能够用预先训练好的图像-文本基础模型来初始化视频-语言模型,从而提高最终性能。

其次,由于缺乏语义配准的大规模训练数据,现有的视频语言配准工作效果并不理想。为了克服这一问题,该团队利用 LLM 整理出了迄今为止最大的视频语言数据集,并提供了更好的视觉基础。与只包含短片的现有视频-文本数据集不同,该数据集丰富了不同时长的视频片段,从而帮助时间分层数据 token 在不同时间尺度上提取更好的表征。

实验结果表明,该团队提出的方法在多个检索基准(尤其是在较长的视频上)上取得了 SOTA,在分类基准上的表现也很有竞争力。

论文链接:
https://arxiv.org/abs/2403.14870

6.ThemeStation:多样化主题的可控3D到3D生成

现实世界的应用往往需要大量主题一致的 3D 资产。虽然在根据文本或图像创建一般 3D 内容方面取得了一些进展,但根据输入 3D 示例的共享主题合成定制 3D 资产仍然是一个具有挑战性的问题。

来自香港城市大学、上海 AI Lab 和南洋理工大学的研究团队提出了一种主题感知型的 3D 到 3D 生成方法—ThemeStation。ThemeStation 基于给定的几个示例合成定制的 3D 资产,有两个目标: 1)生成与给定范例主题一致的 3D 资产的统一性;2)生成具有高度变化的 3D 资产的多样性。

为此,研究团队设计了一个两阶段框架,首先绘制概念图,然后进行参考 3D 建模。他们也提出了一种新颖的双分数蒸馏(DSD)损失法,从而共同利用输入示例和合成概念图的先验。

广泛的实验和用户研究证实,ThemeStation 在生成多样化主题感知 3D 模型方面超越了之前的研究成果,也能实现各种应用,如可控的 3D 到 3D 生成。

论文链接:
https://arxiv.org/abs/2403.15383
项目地址:
https://3dthemestation.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/486741.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI之Suno:Suno V3的简介、安装和使用方法、案例应用之详细攻略

AI之Suno:Suno V3的简介、安装和使用方法、案例应用之详细攻略 目录 Suno AI的简介 1、特点与改进: Suno AI的安装和使用方法 1、第一步,让国产大模型—ChatGLM4帮我写一个提示词 2、第二步,将提示词交给Suno v3,…

TikTok vs Instagram!哪个广告形式更适合你

近几年,TikTok以短视频和创新性吸引不少年轻受众,在广告方面也提供挑战赛、创意滤镜和名人合作等多种方式,自2019年起迅速增长,成为Instagram的强劲对手,连续三年下载量居首。而Instagram则拥有十多年历史和庞大用户基…

人工智能(Educoder)-- 搜索技术 -- 盲目式搜索

第1关:盲目搜索之宽度优先搜索算法 任务描述 本关任务:给定迷宫地图以及在迷宫中的起始位置,利用宽度优先搜索算法求解走出迷宫的最短路径长度,走出迷宫意味着达到迷宫地图的边界(所有位置下标0开始)。 …

安卓工控一体机主板定制_联发科MTK平台解决方案

新移科技安卓工控一体机方案基于MT8766主芯片,采用四核 Cortex-A53 CPU,搭载Android 12.0系统,主频高达2.0GHz,具有低功耗和高性价比的优势。搭载ARM IMG GE8300 高性能GPU和4G全网通版本的RF,网络连接稳定快速。 可直…

Linux调试器-gdb

一、背景 程序的发布方式有两种,debug模式和release模式 debug模式:编译器形成可执行程序的时候会给可执行程序添加调试信息 程序员调试时使用debug模式,而release模式用于测试 而gcc/g默认编译,采用release模式 用gcc/g使用…

智能建筑:基于IT的集成和融合解决方案

智能建筑( Intelligent Building) 定义: 以建筑为平台,兼备建筑设备、办公自动化及通信网络系统,集结构、系统、服务、管理及它们之间的最优化组合,向人们提供一个安全、高效、舒适、便利的建筑环境。 智能建筑的发展历史: -产生:1984年世界上第一座智能大厦诞生于美国…

基于yolov8安全帽检测的系统

基于yolov8安全帽检测的系统 项目描述: 安全头盔检测(计算机视觉) 1.自训练数据集1538张数据图片,进行标注,并进行100轮的训练,准确率达0.966 2.使用 Flask 和 Ultralytics YOLOv8 模型开发了一个 Web 应…

【开发环境搭建篇】NodeJS的安装和配置

作者介绍:本人笔名姑苏老陈,从事JAVA开发工作十多年了,带过大学刚毕业的实习生,也带过技术团队。最近有个朋友的表弟,马上要大学毕业了,想从事JAVA开发工作,但不知道从何处入手。于是&#xff0…

C++ STL-string 类使用超详解

目录 0. 引言 1. string 类 1.1 string类的基本概念 1.2 string类与char*的区别 1.3 string类的作用 2. string 的接口使用 2.1 string 类对象的默认成员函数 2.1.1 构造函数 - 初始化 2.1.2 npos 含义 2.2 赋值重载 - 初始化 2.3 析构函数 2.2 string 类对象的访问和…

目前服务器2核4G支持多少人同时访问?性能如何?

腾讯云轻量应用服务器2核4G5M配置性能测评,腾讯云轻量2核4G5M带宽服务器支持多少人在线访问?并发数10,支持每天5000IP人数访问,腾讯云百科txybk.com整理2核4G服务器支持多少人同时在线?并发数测试、CPU性能、内存性能、…

Qt 窗口MainWindow(下)

对话框 对话框是 GUI 程序中不可或缺的组成部分。一些不适合在主窗口实现的功能组件可以设置在对话框中。对话框通常是一个顶层窗口,出现在程序最上层,用于实现短期任务或者简洁的用户交互。Qt 常用的内置对话框有: QFiledialog (文件对话框)、QColorDi…

36.基于SpringBoot + Vue实现的前后端分离-高校汉服租赁网站系统(项目 + 论文)

项目介绍 本站是一个B/S模式系统,采用SpringBoot Vue框架,MYSQL数据库设计开发,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得基于SpringBoot Vue技术的高校汉服租赁网站系统设计与实现管理…

【包远程安装运行】SpringBoot+Mysql实现的美食分享菜谱制作平台+演示视频+开发文档(论文模板)

今天发布的是由【猿来入此】的优秀学员独立做的一个基于springboot脚手架的美食分享菜谱制作平台系统,该系统分为前台和后台,多用户分享平台。主要实现了 除脚手架功能以外下面是系统的功能: 前台普通用户:注册、登录、首页、美食…

如何在软件测试行业走的更远?

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 时间往前推10年,IT业如日中天。 其中测试更是一个极具包容性的行业。那些希望在技术…

图像抠图DIS——自然图像中高精度二分图像抠图的方法(C++/python模型推理)

概述 DIS(Dichotomous Image Segmentation)是一种新的图像分割任务,旨在从自然图像中分割出高精度的物体。与传统的图像分割任务相比,DIS更侧重于具有单个或几个目标的图像,因此可以提供更丰富准确的细节。 为了研究…

Java只有中国人在搞了吗?

还是看你将来想干啥。想干应用架构,与Java狗谈笑风生,沆瀣一气,你就好好写Java,学DDD,看Clean Architecture。你想成为炼丹玄学工程师,年入百万,就选python,专精各种paper。你不在意…

如何修改SystemUI Clock的样式

开机的流程为: 在 CollapsedStatusBarFragment 的onCreateView 方法中 inflate R.layout.status_bar.xml, 里面定义有Clock。 CollapsedStatusBarFragment 的被调用流程为: 在StatusBar 的makeStatusBarView方法中显示出来。 所以可以在文…

Vue 若依框架 form-generator添加表格组件和动态表单组件

效果图: 在若依框架自带的流程表单配置基础上添加这两个组件 config.js // 表单属性【右面板】 export const formConf {formRef: elForm,formModel: formData,other: other,size: medium,labelPosition: right,labelWidth: 100,formRules: rules,gutter: 15,dis…

vue2 和 vue3 配置路由有什么区别

vue2 和 vue3 配置路由有什么区别 初始化路由器实例:注入到应用中:动态路由参数和捕获所有路由:编程式导航 API:异步加载组件: vue2 如何 使用路由 第一步:安装 vue-router第二步:创建路由组件第…

在面对API的安全风险,WAAP全站防护能做到哪些?

随着数字化转型的加速,API(应用程序接口)已经成为企业间和企业内部系统交互的核心组件。在应用程序开发过程中,API能够在不引起用户注意的情况下,无缝、流畅地完成各种任务。例如从一个应用程序中提取所需数据并传递给…
最新文章