大模型日报|今日必读的10篇大模型论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.谷歌推出新型 Transformer 架构:反馈注意力就是工作记忆

虽然 Transformer 给深度学习带来了革命性的变化,但二次注意复杂性阻碍了其处理无限长输入的能力。

谷歌研究团队提出了一种新型 Transformer 架构“反馈注意力记忆”(Feedback Attention Memory,FAM),其利用反馈环路使网络能够关注自身的潜在表征。这种设计促进了 Transformer 工作记忆的出现,使其能够处理无限长的序列。TransformerFAM 不需要额外的权重,因此可以与预训练模型无缝集成。

实验表明,TransformerFAM 显著提高了 Transformer 在各种模型大小(1B、8B 和 24B)的长上下文任务中的性能。

论文链接:
https://arxiv.org/abs/2404.09173

2.高通新研究:提高多模态大型语言模型的推理速度

多模态大型语言模型(MLLMs)的推理速度很慢,这是因为其大型语言模型骨干存在内存带宽瓶颈,并且会自动回归生成 toekn。

高通研究团队探讨了如何应用推测解码来提高 MLLM(特别是 LLaVA 7B 模型)的推理效率。研究表明,纯语言模型可以作为使用 LLaVA 7B 进行推测解码的良好草稿模型,从而绕过草稿模型中图像 token 及其相关处理组件的需要。在三个不同任务中进行的实验表明,推测解码可以实现高达 2.37 倍的内存加速。

论文链接:
https://arxiv.org/abs/2404.08856

3.确保 LLM 对齐和安全的 18 个基本挑战

来自剑桥大学的研究团队及其合作者确定了在确保大型语言模型(LLMs)的一致性和安全性方面的 18 个基本挑战。这些挑战被分为三个不同的类别:对 LLMs 的科学理解,开发和部署方法,以及社会技术挑战。他们根据已确定的挑战,提出了 200 多个具体的研究问题。

论文链接:
https://arxiv.org/abs/2404.09932

4.Ctrl-Adapter:使多样的控制适应任意扩散模型的高效和通用的框架

ControlNets 被广泛用于在不同条件下的图像生成中添加空间控制,如深度图、canny 边缘和人体姿态。

然而,在利用预训练图像 ControlNets 进行受控视频生成时,依然存在一些挑战。首先,由于特征空间的不匹配,预训练的 ControlNet 不能直接插入到新的骨干模型中,且为新骨干训练 ControlNet 的成本很高。其次,不同帧的 ControlNet 特征可能不能有效地处理时间一致性问题。

为此,北卡罗来纳大学教堂山分校团队提出了一个高效、通用的框架——Ctrl-Adapter,其可以通过适应预训练的 ControlNets (并改善视频的时间对齐),为任何图像、视频扩散模型添加不同的控件。Ctrl-Adapter 提供多种功能,包括图像控制、视频控制、具有稀疏帧的视频控制、多条件控制、兼容不同的骨干、适应未见过的控制条件和视频编辑。在 Ctrl-Adapter 中,训练适配器层,将预训练的控制网络特征融合到不同的图像、视频扩散模型,同时冻结 ControlNet 和扩散模型的参数。Ctrl-Adapter 由时间模块和空间模块组成,可以有效地处理视频的时间一致性。他们还提出潜在跳跃和逆时间步采样,用于鲁棒自适应和稀疏控制。

此外,Ctrl-Adapter 还能通过简单地取 ControlNet 输出的(加权)平均值来实现多种条件下的控制。凭借各种图像、视频扩散骨干(SDXL、Hotshot-XL、I2VGen-XL 和 SVD), Ctrl-Adapter 在图像控制方面与 ControlNet 不相上下,并在视频控制方面超过所有基线(在 DAVIS 2017 数据集上实现 SOTA 精度),而且计算成本显著降低(少于 10 GPU 小时)。

论文链接:
https://arxiv.org/abs/2404.09967
项目地址:
https://ctrl-adapter.github.io/

5.Tango 2:通过直接偏好优化调整基于扩散的文生视频模型

生成式多模态内容在许多内容创作领域日益流行,因为它有可能让艺术家和媒体人员通过快速将他们的想法带到生活中来创建预制作模型。根据文字提示生成音频,是在音乐和电影行业中这类流程的一个重要方面。

目前,许多基于文生视频的扩散模型专注于在大量提示音频对数据集上训练日益复杂的扩散模型。然而,这些模型并没有明确地关注概念或事件的存在,以及它们在输出音频中与输入提示相关的时间顺序。

来自新加坡科技设计大学的研究团队及其合作者假设关注的是音频生成的这些方面如何在数据有限的情况下提高音频生成的性能。他们使用现有的文本到音频模型 Tango,综合创建了一个偏好数据集,其中每个提示都有一个赢家的音频输出和一些输家的音频输出,供扩散模型学习。从理论上讲,输家的输出可能缺少提示中的一些概念或顺序不正确。

他们在偏好数据集上使用 diffusion-DPO 损失对公开可用的 Tango 文生视频模型进行了微调,并表明它在自动和手动评估指标方面优于 Tango 和 AudioLDM2 的音频输出。

论文链接:
https://arxiv.org/abs/2404.09956
GitHub 地址:
https://github.com/declare-lab/tango

6.Video2Game:将真实世界场景视频转换为现实和交互式游戏环境

创建高质量的交互式虚拟环境,如游戏和模拟器,通常涉及复杂和昂贵的人工建模过程。

来自伊利诺伊大学香槟分校、上海交通大学和康奈尔大学的研究团队提出了一种自动将真实世界场景视频转换为现实和交互式游戏环境的新方法——Video2Game。该系统的有三个核心组件:(1)神经辐射场(NeRF)模块,有效捕捉场景的几何形状和视觉外观(2)一个网格模块,从 NeRF 中提取知识,以更快地渲染(3)物理模块,对物体之间的相互作用和物理动力学进行建模。

通过遵循精心设计的管道,人们可以构建现实世界的可交互和可操作的数字副本。在室内和大规模室外场景上对该系统进行了基准测试证明,该方法不仅可以实时产生高度逼真的渲染,还可以在上面构建交互式游戏。

论文链接:
https://arxiv.org/abs/2404.09833
GitHub 地址:
https://video2game.github.io/

7.北大、快手提出 UNIAA:让多模态大模型更懂人类审美

作为昂贵的专家评估的替代方案,图像美学评估(IAA)是计算机视觉领域的一项重要任务。然而,传统的 IAA 方法通常局限于单一的数据源或任务,限制了其通用性。

为了更好地符合人类的审美,来自北京大学和快手的研究团队提出了一个统一的多模态图像美学评估(UNIAA)框架,包括一个名为 UNIAA-LLaVA 的多模态大型语言模型(MLLM)和一个名为 UNIAA-Bench 的综合基准。他们为 IAA 选择了具有视觉感知和语言能力的 MLLMs,并建立了一种将现有数据集转换为统一的高质量视觉指令微调数据的低成本范式,并以此为基础训练 UNIAA-LLaVA。为了进一步评估 MLLMs 的 IAA 能力,他们构建了由感知、描述和评估 3 个审美层次组成的 UNIAA-Bench。

通过大量实验,验证了 UNIAA 的有效性和合理性。与现有的 MLLMs 相比,UNIAA-LLaVA 在 UNIAA-Bench的所有级别上都实现了有竞争力的性能。该模型在审美感知方面的表现优于 GPT-4V,甚至接近人类(junior-level),MLLMs在 IAA 中有很大的潜力,但仍有很大的改进空间。

论文链接:
https://arxiv.org/abs/2404.09619

8.综述:替代 Transformer 的状态空间模型

近来,状态空间模型(State Space Model,SSM)作为一种可能替代基于自注意力的 Transformer 的方法,受到了越来越多的关注。在这项工作中,来自安徽大学、哈尔滨工业大学和北京大学的研究团队,首先对这些工作进行了全面的综述,并进行了实验比较和分析,从而更好地展示 SSM 的特点和优势。

具体而言,他们首先对 SSM 的原理进行了详细描述,从而帮助读者快速捕捉 SSM 的主要思想;然后,对现有的 SSM 及其各种应用进行综述,包括自然语言处理、计算机视觉、图、多模态多媒体、点云/事件流、时间序列数据等领域。此外,他们还对这些模型进行了统计上的比较和分析,希望能帮助读者了解不同结构在各种任务上的有效性。然后,他们提出了该方向可能的研究方向,从而更好地推动 SSM 理论模型和应用的发展。

论文链接:
https://arxiv.org/abs/2404.09516
GitHub 地址:
https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List

9.Melodist:实现包含人声和伴奏的可控文生歌曲模型

歌曲是歌声和伴奏的结合,然而,现有的工作主要集中在歌唱声音合成和音乐生成上,很少有人关注歌曲合成。

来自浙江大学的研究团队提出了一项名为“文本到歌曲合成”(text-to-song synthesis)的新任务,其中包含人声和伴奏的生成,他们开发的 Melodist 是一种两阶段文本到歌曲方法,包括歌唱语音合成 (SVS)和人声到伴奏合成 (V2A)。Melodist 利用三塔对比预训练来学习更有效的文本表示,用于可控的 V2A 合成。

为了缓解数据的稀缺性问题,他们构建了一个从音乐网站中挖掘出的中文歌曲数据集。在他们的数据集上的评估结果表明,Melodist 可以合成具有相当质量和风格一致性的歌曲。

论文链接:
https://arxiv.org/abs/2404.09313
项目地址:
https://text2songmelodist.github.io/Sample/

10.Megalodon:具有无限文本长度的高效 LLM 预训练和推理

Transformers 的二次方复杂性和较弱的长度外推能力限制了其扩展至长序列的能力,虽然存在线性注意和状态空间模型等二次方以下的解决方案,但根据经验,它们在预训练效率和下游任务准确性方面都不如 Transformers。

来自南加利福尼亚大学、Meta、卡内基梅隆大学和加利福尼亚大学圣地亚哥分校的研究团队提出了一种用于高效序列建模,并且其上下文长度不受限制的神经架构 Megalodon。Megalodon 继承了 Mega 的指数移动平均线架构,为提高其能力和稳定性,还进一步提出了多种技术组件,包括复杂指数移动平均法(CEMA)、时间步归一化层、归一化关注机制和带两跳残差配置的预归一化。在与 Llama2 的可控正面比较中,Megalodon 在 70亿个参数和2万亿训练 Tokens 的规模上取得了比 transformer 更好的效率。Megalodon 的训练损失为1.70,降落在美洲驼 2-7B (1.75) 和 13B (1.67) 之间。

论文链接:
https://arxiv.org/abs/2404.08801
GitHub 地址:
https://github.com/XuezheMax/megalodon

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/549445.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《自动机理论、语言和计算导论》阅读笔记:p225-p260

《自动机理论、语言和计算导论》学习第 9 天,p225-p260总结,总计 26 页。 一、技术总结 1.pushdown automation(PDA,下推自动机) 2.DPDA Deterministic PDA(确定性下推自动机)。 二、英语总结 1.instantaneous (1)instant: adj. happi…

苹果电脑启动磁盘是什么意思 苹果电脑磁盘清理软件 mac找不到启动磁盘 启动磁盘没有足够的空间来进行分区

当你一早打开苹果电脑,结果系统突然提示: “启动磁盘已满,需要删除部分文件”。你会怎么办?如果你认为单纯靠清理废纸篓或者删除大型文件就能释放你的启动磁盘上的空间,那就大错特错了。其实苹果启动磁盘的清理技巧有很…

app测试系列-超详细的app测试攻略,一文带你学会移动端测试

🔥 交流讨论:欢迎加入我们一起学习! 🔥 资源分享:耗时200小时精选的「软件测试」资料包 🔥 教程推荐:火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…

模板初阶的学习

目录: 一:泛型模板 二:函数模板 三:类模板 1:泛型模板 泛型编程:编写与类型无关的通用代码,是代码复用的一种手段。模板是泛型编程的基础。 以交换函数为列进行讲解: void Swap(…

【C++对于C语言的扩充】函数重载、引用以及内联函数

文章目录 🚀前言🚀函数重载注意:✈️为什么C可以实现函数重载,而C语言却不行呢? 🚀引用✈️引用的特性✈️C中为什么要引入引用✈️引用与指针的区别 🚀内联函数✈️内联函数特性 🚀…

Python 序列化与反序列化

目录 1、基本概念 2、JSON模块 2.1、dumps() 与 loads() 函数 2.2、dump() 与 load() 函数 2.3、bool 、None 类型的序列化与反序列化 3、pickle模块 3.1、dumps() 与 loads() 函数 3.2、dump() 与 load() 函数 1、基本概念 说明:通过文件操作,…

移动硬盘盒支持PD充电:优势解析与实际应用探讨

随着科技的飞速发展,数据存储和传输的需求日益增长,移动硬盘盒作为便携式存储设备的重要载体,其功能和性能也在不断提升。近年来,越来越多的移动硬盘盒开始支持PD(Power Delivery)充电技术,这一…

案例研究|众乐邦将MeterSphere持续测试平台融入DevOps流水线

众乐邦网络科技有限公司(以下简称为“众乐邦”)是一家企业服务公司。其旗下的众乐邦灵活用工数字化薪税管理平台(以下简称为灵活用工管理平台),以财税服务视角切入灵活用工场景,连接企业、灵活就业者和监管…

平台系统的微信支付服务突然不可用问题记录

背景 我们平台系统的微信支付突然不可用,用户点击支付都提示错误“系统繁忙”。 排查 查看日志,发现“支付聚合服务”调用“微信支付服务”的http请求返回read timeout,问题很显然出在“微信支付服务”。http请求报read timeout&#xff0…

全球顶级的低代码开发平台,你知道几个?

什么是低代码开发平台? 低码开发平台是一个应用程序,提供图形用户界面编程,从而以非常快的速度开发代码,减少了传统的编程工作。 这些工具有助于快速开发代码,最大限度地减少手工编码的努力。这些平台不仅有助于编码,而且还能快速安装和部署。 低码开发工具的好处 低代码平…

【JavaSE】你真的了解内部类吗?

前言 本篇会详细讲解内部类的四种形式,让你掌握内部类~ 欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 目录 前言 内部类介绍 实例内部类 定义 调用 静态内部类 定义 调用 匿名内部类 定义和调用1 调用方法2 …

vs2019 - detected memory leak

文章目录 vs2019 - detected memory leak概述笔记vs2019 consolevs2019 MFC Dlg但是,工程大了之后,VS2019提示的就变了样整好的内存泄漏侦测头文件和实现my_debug_new_define.hmy_debug_new_define.cpp在所有.cpp文件入口处包含my_debug_new_define.h包含…

计算机系列之操作系统的系统

2、大话操作系统的启动 当按下开机键时,BIOS 就会开始执行 ​ BIOS 就是放在主板上 ROM 里面的一段程序。 ​ ROM Read Only Memory(只能读取的内存) ​ 所以 BIOS 在出厂的时候就可以直接写死在 ROM 里面。 ​ 每次开机的时候&#xff…

【数据结构与算法】之双向链表及其实现!

​ 个人主页:秋风起,再归来~ 数据结构与算法 个人格言:悟已往之不谏,知来者犹可追 克心守己,律己则安! 目录 1、双向链表的结构及概念 2、双向链表的实现 2.1 要实现的接口…

Mac版2024 CleanMyMac X 4.15.2 核心功能详解 cleanmymac这个软件怎么样?cleanmymac到底好不好用?

近些年伴随着苹果生态的蓬勃发展,越来越多的用户开始尝试接触Mac电脑。然而很多人上手Mac后会发现,它的使用逻辑与Windows存在很多不同,而且随着使用时间的增加,一些奇奇怪怪的文件也会占据有限的磁盘空间,进而影响使用…

Android studio顶部‘app‘红叉- Moudle ‘XX.app’ dosen’t exist in project

Android studio顶部app红叉- Moudle ‘XX.app’ dosen’t exist in project 1、现象: 运行老项目或者有时候替换项目中的部分代码,明明没有错但是Android studio就编译报错了。 1.1 Android studio顶部app红叉。 1.2 点击Build没有clear菜单&#xff0…

软考 - 系统架构设计师 - 嵌入式真题

问题 1: (1).HTML 静态化:可以实现对系统经常访问的页面进行静态化以提高系统访问的效率,但系统页面通常需要数据库中的用户信息和用户选择来动态显示,因此不适合采用。 HTML 静态化: 将动态生成…

windows下已经创建好了虚拟环境,但是切换不了的解决方法

用得多Ubuntu,今天用Windows重新更新anaconda出问题,重新安装之后,打开pycharm发现打开终端之后,刚开始是ps的状态,后面试了网上改cmd的方法,终端变成c盘开头了 切换到虚拟环境如下:目前的shell…

ON1 NoNoise AI 2024 for Mac/Win:智能降噪,重塑影像之美

在数字摄影领域,图片质量往往受到多种因素的影响,其中噪点问题尤为突出。ON1 NoNoise AI 2024作为一款专为Mac和Windows平台打造的AI图片降噪工具,凭借其卓越的降噪性能和智能化的操作体验,成为了摄影师和图像处理专家们的首选工具…

NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM)、新一代数据集BIRD-SQL解读

NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL)、新一代数据集BIRD-SQL解读 NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2…
最新文章