LMDeploy 的量化和部署

LMDeploy 的量化和部署

文档:https://github.com/InternLM/tutorial/blob/vansin-patch-4/lmdeploy/lmdeploy.md
视频:https://www.bilibili.com/video/BV1iW4y1A77P

一、模型量化

大模型参数量很大,运行起来非常消耗显存和内存,模型的参数和计算过程中的kv是浮点数,如果在保证一定精度的下存储为低精度的浮点数或者整数,就可以减少调取参数的时间。主要有两种量化方法,KV Cache 量化和 **4bit Weight Only 量化(W4A16)

KV Cache 量化是指将逐 Token(Decoding)生成过程中的上下文 K 和 V 中间结果进行 INT8 量化(计算时再反量化),以降低生成过程中的显存占用。

4bit Weight 量化,将 FP16 的模型权重量化为 INT4,Kernel 计算时,访存量直接降为 FP16 模型的 1/4,大幅降低了访存成本。Weight Only 是指仅量化权重,数值计算依然采用 FP16(需要将 INT4 权重反量化)。

二、模型部署

模型需要在具体的运行环境中跑起来,才能对外提供推理服务,模型部署的过程涉及到模型的转换(针对运行环境进行格式转换),推理服务的部署(包括后端模型的运行启动、中间的接口暴露、前端的对话界面)。LMDeploy就是应用于模型部署的工具,基础架构如图:

LMDeploy(TurboMind) is a toolkit for compressing, deploying, and serving LLM.

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/318996.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何在电脑上免费更改 PDF 格式文档的字体大小?

对于需要编辑或修改的 PDF 文件来说,更改其字体大小是一个非常常见且必要的工作。虽然 Adobe Acrobat Pro DC 等专业的 PDF 编辑软件可以帮助您完成此任务,但他们通常都需要昂贵的恢复。幸运的是,有许多免费的 PDF 编辑工具可供选择。在本文中…

大括号内两行公式中,如何左对齐公式的条件

1. 先建立一个大括号,中间设置一个二维矩阵如下: 2. 选中整个矩阵,不要选外面的括号,进行如下操作 3. 选择左侧对齐 即可。

Docker安装Redis详细步骤

1、创建安装目录 mkdir -p /usr/local/docker/redis-docker 2、确定安装的版本 确定对应的版本,在步骤3中会用到: https://github.com/redis/redis/branches 3、配置docker-compose.yml 内容如下: version: 3 services:redis:image: r…

信息检索速通知识点

仅仅是我自己能想到的对这个分类的一个记忆。欢迎指正 首先,最重要的一点,什么是信息检索? 信息检索是从大规模无规则的数据中(主要是文档)中查询用户所需要的信息的过程。 然后,信息检索有哪几种索引呢&am…

Vue.observable详解(细到原码)

文章目录 一、Observable 是什么二、使用场景三、原理分析参考文献 一、Observable 是什么 Observable 翻译过来我们可以理解成可观察的 我们先来看一下其在Vue中的定义 Vue.observable,让一个对象变成响应式数据。Vue 内部会用它来处理 data 函数返回的对象 返回…

“一键转换PNG至BMP:轻松批量处理,高效优化图片管理“

在数字世界中,图片格式的转换是日常工作中不可或缺的一部分。你是否经常遇到需要将PNG格式的图片转换为BMP格式的需求?是否在处理大量图片时,希望能够实现一键批量转换,提高工作效率? 首先,我们进入首助编…

迎接数智时代:数字经济引领可视化转型

在数字经济的持续崛起下,企业正在进行数字化转型,其中可视化和数智化成为关键驱动力。NFC技术的应用更是为这一转型提供了新的可能性。 数字经济塑造未来: 数字经济的兴起标志着企业正进入一个全新的时代。通过数字技术,企业可…

如何使用创建时间给文件重命名,简单的批量操作教程

在处理大量文件时,有时要按照规则对文件重命名,根据文件的创建时间来重命名。那如何批量操作呢?现在一起来看云炫文件管理器如何用文件的创建时间来批量重命名。 按创建时间重命名文件的前后对比图。 用创建时间批量给文件重命名的步骤&…

数据仓库(3)-模型建设

本文从以下9个内容,介绍数据参考模型建设相关内容。 1、OLTP VS OLAP OLTP:全称OnLine Transaction Processing,中文名联机事务处理系统,主要是执行基本日常的事务处理,比如数据库记录的增删查改,例如mysql、oracle…

OpenJDK 和 OracleJDK 哪个jdk更好更稳定,正式项目用哪个呢?关注者

OpenJDK 和 OracleJDK:哪个JDK更好更稳定,正式项目应该使用哪个呢?我会从,从开源性质、更新和支持、功能差异等方面进行比较,如何选择,哪个jdk更好更稳定,正式项目用哪个呢,进行比较…

小米数据恢复软件:如何从小米手机恢复已删除的数据

“买一部小米手机,送一个移动硬盘”。人们惊叹于小米手机以非常合理的价格提供的大容量。我们甚至可以把小米手机当做一个移动硬盘来使用,存储大量的照片、视频、文档等文件。但是,在我们使用手机的过程中,误删的情况时有发生&…

AI编程可视化Java项目拆解第一弹,解析本地Java项目

之前分享过一篇使用 AI 可视化 Java 项目的文章,同步在 AI 破局星球、知乎、掘金等地方都分享了。 原文在这里AI 编程:可视化 Java 项目 有很多人感兴趣,我打算写一个系列文章拆解这个项目,大家多多点赞支持~ 今天分享的是第一…

学习使用Rainyun搭建网站

我们选择了白嫖雨云的二级域名 浏览器输入https://www.rainyun.com/z22_ 创建账号然后选择一个你喜欢的子域名我建议后缀选择ates.top的 选择自定义地址,类型选择cname 现在要选择记录值了,有a,aa,txt等 根据实际情况填写。就可以…

【CAN】CANoe添加模拟节点报错解决方法

文章目录 1. 问题现象2. 问题解决方法 >>返回总目录<< 1. 问题现象 通过CANoe添加模拟节点时&#xff0c;提示无法加载动态链接库CANOEILNLSPA.DLL。 2. 问题解决方法 右键模拟节点&#xff0c;选择Configuration选项&#xff0c;弹出Node Configuration界面&am…

【计算机组成原理】高速缓冲存储器 Cache 的三种映射方式(Cache Mapping)

Cache映射 Cache Mapping 缓存是计算机系统中常见的一种高速存储器&#xff0c;用于临时存储常用数据&#xff0c;以便快速访问。在缓存中&#xff0c;有三种常见的映射方式&#xff0c;分别是直接映射、全相联映射和组相联映射。 直接映射 Direct Mapping 在直接映射中&…

uniapp 编译后文字乱码的解决方案

问题: 新建的页面中编写代码&#xff0c;其中数字和图片都可以正常显示&#xff0c;只有中文编译后展示乱码 页面展示也是乱码 解决方案: 打开HuilderX编辑器的【文件】- 【以指定编码重新打开】- 【选择UTF-8】 然后重新编译就可以啦~ 希望可以帮到你啊~

OpenHarmony社区运营报告(2023年12月)

• 截至2023年12月22日&#xff0c;OpenAtom OpenHarmony&#xff08;简称“OpenHarmony"&#xff09;社区累计超过6700名贡献者&#xff0c;产生26.9万多个PR&#xff0c;2.4万多个Star&#xff0c;6.7万多个Fork&#xff0c;59个SIG。 • 2023年12月16日&#xff0c;以“…

Windows+Qt5.14.2+android x86配置与处理adb报错

资源下载 可在部分国内镜像源下载Qt5.14.2&#xff1a;Index of /qt/archive/qt/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror其他工具 android studio:下载 Android Studio 和应用工具 - Android 开发者 | Android Developerssdk manager 、ndk、java 安装过…

使用emu8086实现——分支结构程序设计

一、实验目的 1. 掌握分支结构程序的编程方法 2. 掌握汇编语言程序设计方法&#xff0c;自己编写程序&#xff0c;并调试运行验证结果。 二、实验内容 1.在键盘上输入一个字符&#xff0c;判断是否为小写字母&#xff0c;若不是&#xff0c;显示错误信息&#xff0c;若是&…

win桌面图标间距变大如何调整

1、win键R-->输入regedit-->回车 2、 找到 IconSpacing 和 IconVerticalSpacing -->HKEY_CURRENT_USER-->Control Panel-->Desktop-->WindowMetrics-->IconSpacing-->IconVerticalSpacing 3、分别将其值改成-1125&#xff08;系统默认的值&#xff09…