LLM推理部署(五):AirLLM使用4G显存即可在70B大模型上进行推理

       众所周知,大模型的训练和推理需要大量的GPU资源,70B参数的大模型需要130G的GPU显存来存储,需要两个A100(显存为100G)。

​      在推理过程中,整个输入序列也需要加载到内存中进行复杂的“注意力”计算,这种注意力机制的内存需求与输入长度成二次方关系。

一、分层推理(Layer-wise Inference)

       分层推理是计算机科学中分而治之的基本方法。今天的大型语言模型都采用谷歌论文《Attention is all you need》中提出的多头自注意力结构,这就是人们后来所说的Transformer结构,Transformer结构如下图所示:

       大型语言模型首先是embedding投影层,之后是80个完全相同的transformer层,每个transformer层有一个LN和MLP层来预测token ID概率。

      在推理过程中,层按顺序执行,上一层的输出是下一层的输入,一次只执行一个层。因此,完全没有必要将所有层都保存在GPU内存中。我们可以在执行该层时从磁盘加载所需的任何层,进行所有计算,然后完全释放内存。这样,每层所需的GPU内存仅为一个transformer层的参数大小,即整个模型的1/80,约1.6GB。

       此外,一些输出缓存也存储在GPU内存中,最大的是KV缓存,以避免重复计算。对于70B模型,这个KV缓存大小大约是:

             2*input_length*num_layers*num_heads*vector_dim*4

输入长度为100时,此缓存=2*100*80*8*128*4=30MB GPU内存。

二、Flash Attention

       Flash attention可能是当今大型语言模型开发中最重要、最关键的优化之一,几乎所有的大型语言模型都采用该技术来优化。Flash attention思想受论文《Self-attention Does Not Need O(n²) Memory》启发,最初self-attention需要O(n²)内存(n是序列长度),论文认为实际上不需要保留O(n²)的中间结果,我们可以按顺序计算它们,不断更新一个中间结果,并丢弃其他所有结果,这将内存复杂性降低到O(logn)。

      Flash attention本质上是相似的,内存复杂度O(n)略高,但 Flash attention深度优化了cuda内存访问,实现了推理和训练的多倍加速。

       如图所示,最初的self-attention计算并存储O(n²)中间结果。Flash attention将计算拆分为许多小块,逐块计算,并将内存减少到一个块的大小。

三、模型文件共享

       原始模型文件通常被分为多个块,通常每个块10GB。我们的执行过程是一层一层的。每层只有1.6GB。如果我们基于原始10GB碎片进行加载,则每层执行都需要重新加载整个10GB文件,但仅使用1.6GB。这个过程浪费了大量用于加载和磁盘读取的内存。磁盘读取速度实际上是整个推理过程中最慢的瓶颈,所以我们希望尽可能地将其最小化。因此,我们首先对原始的HuggingFace模型文件进行预处理,并对其进行分层分割。

       对于存储,我们使用安全张量技术(https://github.com/huggingface/safetensors)。Safetensor确保存储格式和内存中格式紧密匹配,并使用内存映射进行加载以最大限度地提高速度。

四、元设备(Meta Device)

      我们使用HuggingFace Accelerate提供的Meta Device功能(https://huggingface.co/docs/accelerate/usage\\_guides/bigh\\_modeling)来实施。Meta Device是一种专门为运行超大型模型而设计的虚拟设备。当您通过Meta Device加载模型时,模型数据实际上并没有被读入,只是加载了代码,内存使用率为0。

       在执行过程中,您可以将模型的部分内容从Meta Device动态转移到CPU或GPU等真实设备。只有到那时,它才真正加载到内存中。

        使用init_empty_weights()可以通过Meta Device加载模型,代码如下:

from accelerate import init_empty_weightswith init_empty_weights():    my_model = ModelClass(...)

五、开源项目

       上述所有技术已经集成到AirLLM(https://github.com/lyogavin/anima/tree/main/air_llm)。使用参考如下:

       首先安装程序包:

pip install airllm

       像传统的Transformer模型一样执行分层推理,代码如下:

from airllm import AirLLMLlama2MAX_LENGTH = 128# could use hugging face model repo id:model = AirLLMLlama2("garage-bAInd/Platypus2-70B-instruct")# or use model's local path...#model = AirLLMLlama2("/home/ubuntu/.cache/huggingface/hub/models--garage-bAInd--Platypus2-70B-instruct/snapshots/b585e74bcaae02e52665d9ac6d23f4d0dbc81a0f")input_text = [        'What is the capital of United States?',    ]input_tokens = model.tokenizer(input_text,    return_tensors="pt",     return_attention_mask=False,     truncation=True,     max_length=MAX_LENGTH,     padding=True)           generation_output = model.generate(    input_tokens['input_ids'].cuda(),     max_new_tokens=20,    use_cache=True,    return_dict_in_generate=True)output = model.tokenizer.decode(generation_output.sequences[0])print(output)

       我们已经在16GB的Nvidia T4 GPU上测试了此代码。整个推理过程使用的GPU内存不足4GB。

PS:像T4这样的低端GPU的推理速度将相当慢。不太适合聊天机器人等交互式场景。更适合一些离线数据分析,如RAG、PDF分析等。目前仅支持基于Llam2的型号。

六、70B训练可以在单个GPU上进行吗?

       虽然推理可以通过分层进行优化,但训练在单个GPU上也能类似地工作吗?

       在执行下一个transformer层时,推理只需要上一层的输出,因此可以使用有限的数据进行分层执行。训练需要更多的数据,训练过程首先计算正向传播,得到每一层和张量的输出,然后进行反向传播来计算每个张量的梯度,梯度计算需要保存之前正向层的结果,因此分层执行不会减少内存。

       还有一些其他技术,如梯度检查点,可以实现类似的效果。

参考文献:

[1] https://ai.gopubby.com/unbelievable-run-70b-llm-inference-on-a-single-4gb-gpu-with-this-new-technique-93e2057c7eeb

[2] https://www.kaggle.com/code/simjeg/platypus2-70b-with-wikipedia-rag/notebook

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/214705.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Apache HTTPD 2.448 mod_proxy SSRF漏洞(CVE-2021-40438)

任务一: 复现漏洞 任务二: 尝试利用SSRF漏洞,访问重庆邮电大学官网(http://www.cqupt.edu.cn) 1.搭建环境 2.了解这个地方是httpd作为了一个反向代理服务器,也就是先是客户端发送请求给代理服务器,然后…

qt-C++笔记之组件-分组框QGroupBox

qt-C笔记之组件-分组框QGroupBox code review! 文章目录 qt-C笔记之组件-分组框QGroupBox1.《Qt 6 C开发指南》p752.《Qt 官方文档》3.《Qt 5.12实战》——5.9 分组框控件 1.《Qt 6 C开发指南》p75 2.《Qt 官方文档》 中间段落翻译: 我把示例补充完整: …

基于ssm Vue的戒烟网站源码和论文

基于ssm Vue的戒烟网站源码和论文734 开发工具:idea 数据库mysql5.7 数据库链接工具:navcat,小海豚等 环境: jdk8 tomcat8.5 开发技术 ssm 摘要 随着互联网的高速发展,线上管理成为当代人们管理事物的重要手段之一&#xff…

能源企业管理ERP系统都有哪些?可以帮助企业解决哪些难点

能源企业在不同的发展阶段面对的经营压力以及遇到的管理问题各异,随着部分产品结构的复杂化,日常经营管理工作也愈加繁琐。 有些能源企业内部存在信息传递不畅、经营数据统计不及时、部门协作效率低、多仓库和多平台数据不统一等情况,而这些…

prometheus基础,结合node_exporter监控节点

文章目录 一、Prometheus是什么二、exporters是什么三、node_exporter四、安装 Prometheus 和 node_exporter下载运行 prometheus运行 node_exporter 五、配置 Prometheus 收集监控数据总结 一、Prometheus是什么 Prometheus 是一个开源的监控和警报工具,它记录任何…

关于随机数的设定和随机噪声

以下是设立随机数和随机噪声的code: 设定随机数的方法有很多,下面代码是通过numpy的API设定随机数,除了numpy,实际上scikit,tf,pytorch都有设定随机数的API的 # Set a random seed for reproducibility(0…

排序算法介绍(五)归并排序

0. 简介 归并排序(Merge Sort)是一种分治思想的应用,它将待排序的数组不断拆分成小数组,直到每个小数组只有一个元素,然后将小数组两两合并,直到最终得到有序的数组。 1. 归并排序的实现 归并排序的基本思…

前端笔记(二):CSS 选择器与特性

CSS(层叠样式表)是一种样式表语言,用于描述HTML或XML文档的呈现方式。它定义了如何在屏幕、纸张或其他媒体上显示文档的样式、布局和外观。 里面的代码由 选择器 { } 组成 体验 CSS CSS 可以让我们界面变得更加美观,这是 CSS 的…

flutter使用动态路由传参的最小案例

flutter中使用动态路由传递参数的封装案例,子组件页面只需要接收arguments参数即可,参数是一个map,里面包含有所需要的参数,类似于json。在MaterialApp中配置onGenerateRoute,然后动态判断传递参数: route…

MobaXterm连接相关

其实最终解决的方法,还是,因为要远程连接的是个局域网ip,我所在的ip和要连接的这个不在同一个局域网内,需要实验室搭的VPN才行。 甚至,我连防火墙都没关,也可以连接 至于修改密码,passwd&#…

猜数字赢金币

充值金币后开始游戏,猜中奖励10金币退出,不中扣除1金币继续。 (笔记模板由python脚本于2023年12月03日 21:52:23创建,本篇笔记适合熟悉程序函数式编程,熟练掌握基本数据类型的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网&…

RocketMQ-RocketMQ集群实践

搭建RocketMQ可视化管理服务 下载可视化客户端源码下载 | RocketMQ 这里只提供了源码,并没有提供直接运行的jar包。将源码下载下来后,需要解压并进入对应的目录,使用maven进行编译。(需要提前安装maven客户端) mvn clean package -Dmaven.t…

项目实战一-性能测试筑基

这里写目录标题 一、为什么程序会出现性能问题、性能问题是怎么出现的?二、功能测试和性能测试的区别是什么?三、核心性能指标1、用户角度核心a、响应时间:b、并发量 2、成本角度3、运维角度面试题、并发量和吞吐量得区别?a、吞吐…

一些后端测试的东西

后端测试都测试些什么 接口测试最小单元测试联调测试 接口测试 接口测试要素 可重复性 异常覆盖 环境一致 如何进行方便的接口测试 测试工具: idea-httpRequest , apifox , postman, jmeter 如何使用idea进行高效的接口测试 编写接口 启动项目直接…

AD生产BOM表时如何隐藏不需要的器件记录

在完成图纸设计号通常需要生产BOM表,以便采购等,如果不做一些操作,往往输出的BOM表中包含一些非需要采购的器件,如下图 这时就需要对原理图或者PCB图做一些处理,以原理图为例,在需要屏蔽的器件上双击&#…

【C语言】扫雷小游戏初学者版

成功的秘诀就是每天都比别人多努力一点。 今天给大家带来一款非常经典的小游戏——扫雷的实现和讲解 这里是目录 前言整体框架1.打印菜单2.创建二维数组3.初始化棋盘4.打印棋盘5.布置棋盘中的雷6.排查雷和统计雷总体代码test.cgame.cgame.h 进阶(递归展开&#xff0…

力扣572:另一棵树的子树

力扣572:另一棵树的子树 给你两棵二叉树 root 和 subRoot 。检验 root 中是否包含和 subRoot 具有相同结构和节点值的子树。如果存在,返回 true ;否则,返回 false 。 二叉树 tree 的一棵子树包括 tree 的某个节点和这个节点的所…

SpringBootAdmin

SpringBootAdmin 文章目录 SpringBootAdmin创建SpringBootAdmin服务端创建SpringBootAdmin客户端启动应用 总结 github地址 https://github.com/codecentric/spring-boot-admin 可以查到所有的版本号 创建SpringBootAdmin服务端 创建springBoot项目的时候,在ops选项…

【Vue】Vue CLI 脚手架(Vue Command Line Interface)安装教程(通过npm)

前言 Vue CLI(Vue Command Line Interface)是一个基于Vue.js的官方脚手架工具,用于快速搭建和管理Vue.js项目。它提供了一套完整的开发工具和配置,包括项目初始化、开发服务器、热重载、构建和打包等功能。 Vue CLI使用了Webpac…

使用PCSS实现的实时阴影效果

PCSS的技术可以使得阴影呈现出近硬远软的效果,并且能够实时实现。 其核心理念是通过模拟光源的面积来产生更自然、更柔和的阴影边缘。 具体步骤: 1、生成shadowmap 2、在进行阴影的比较时候进行平均,并非之前的shadow map 或者之后完全的阴影…