AI算力池化赋能企业大模型价值探索

1. 大语言模型企业落地中的算力痛点

随着人工智能技术的飞速发展,自然语言处理(NLP)成为了热门的研究领域之一。在这一领域中,大语言模型(Large Language Models)凭借其强大的语言理解和生成能力,逐渐成为了研究和应用的热点,越来越多的企业开始将其应用于实际场景,如智能客服、虚拟助手、内容创作、内容审核、机器翻译等。

目前各大厂商都发布了自家的大模型,除了基于大模型改造或者重构现有的应用系统之外,一些大型的厂商选择将自家的大模型进行开源,因此大模型也逐渐被应用于医疗、金融、智能制造等领域。这些领域都需要处理海量的数据和实现复杂的任务,大模型能够提供更高效、更精准的解决方案,具有广阔的应用前景。

对于大部分企业来说,从头开始构建基础大模型不切实际,因为需要花费巨大的成本构建AI算力集群。据相关报道,GPT-3的训练使用了微软专门建设的 AI 计算系统,由1万个 V100 GPU 组成的高性能网络集群,如此大规模、长时间的 GPU 集群训练任务,对AI算力成本提出极致要求。好消息是目前已经有很多开源的大模型,企业只需要基于开源的大模型结合自身行业数据运用大模型微调技术就可以构建一个属于自己的行业大模型,大大的降低了大模型的使用门槛,但企业在尝试大模型的时候也面临了一些问题,主要包括以下几点。

(一)算力资源无法共享:不同业务部门基于开源基础大模型进行微调,构建自己的行业大模型,如果独自采购AI算力资源,各部门之间的算力资源无法实现共享,对于公司来讲无法实现物尽其用就是一种浪费;另外一方面,企业招聘AI工程师成本也非常高,如果由于不同业务部门AI算力资源不能共享导致AI工程师不能正常的开展工作,对于企业来讲也是一种损失。

(二)业务场景无法混部:部门内部也会出现开发训练推理部署环境隔离的情况,导致AI算力资源无法实现灵活复用。比如在白天的时候,开发和推理业务会比较繁忙,资源会出现瓶颈,但这个时候其实是可以把训练资源挪一部分给开发推理使用,毕竟训练任务都是长周期运行,短暂的减少部分训练资源也可以接受。到了晚上,AI开发工程师下班,同时推理业务也处于一天中的低谷期,这时可以把开发和推理资源挪给训练任务使用,从而加快训练的速度,弥补白天减少的训练时间。

(三)运营运维无法统一:不同部门、不同业务、不同场景下构建的AI算力基础设施缺乏统一的管理运维工具。AI算力是企业的重要资产,首先要做的就是知根知底,必须要有一个清晰AI算力资源大图,能够实时的监控到AI服务器、AI算力卡的分配、使用以及健康状态。同时由于任务类型差异、任务规模差异、任务优先级差异以及任务调度能力等多方面因素,会出现AI资源碎片、AI资源使用不均以及软件系统升级维护问题,最后就是无法从部门、业务、场景的维度出发,以每日、每周、每月、每季度的维度统计生成数据报表,为AI算力资源运营提供数据参考。

(四)异构厂商无法兼容:随着国产信创工作的推进,越来越多的企业也开始采购国产AI加速卡开展大模型业务。未来客户数据中心将会出现不同厂商的异构AI算力卡,如何更好地管理和使用各家的AI算力卡也是企业面临的一大挑战。

2. 算力调度解决方案

如何对稀缺、昂贵的算力资源充分利用,实现算力的最大化共享,降低其不可分配的碎片概率,可以考虑借鉴云计算的思路。首先通过虚拟化软件对不同节点上的GPU、AI芯片等进行切分,然后将切分后的资源上报给集群调度框架插件,最后集群调度框架插件根据任务对于资源的需求进行灵活的调度和分配,使能资源可按任务的实际需求进行有序供给。

目前业界的方案包括集群调度框架插件和节点虚拟化软件两部分构成,一般都是同一个厂商将这两部分打包成自己的解决方案。

(一)集群调度框架插件:通过高性能算力网络打通服务器间通路,使得分散在各服务器中的CPU、GPU、AI芯片等算力资源可以通过高速无损网络实现互联互通、透明共享。根据任务对于资源的需求,通过先进的调度策略将任务调度到不同的节点,如果任务要求整卡的资源,那么就会被调度到有空闲整卡的节点,如果任务要求细粒度卡的资源,则会被调度到有空闲虚拟卡的节点,从而实现资源的高效分配。

但不论是调度到整卡还是虚拟卡,集群调度框架插件只会按照任务的需求选择合适的AI算力进行分配,而无法决定任务是否真正在使用AI算力资源。比如要启动一个Jupyter开发任务,并为其分配了一张虚拟卡,但实际上连接到这个Jupyter服务的开发人员却没有运行AI应用程序,因此这张虚拟卡就被白白占用浪费。目前比较常见的集群调度框架插件有基于K8S开源的gpushare和elastic-gpu,基于Volcano开源的GPU Sharing以及宣称有GPU虚拟化能力的K8S类厂商。

(二)节点虚拟化软件:通过用户态或内核态的方式对AI算力资源进行虚拟化,可以实现算力和显存维度的简单或任意比例切分,能够实现单机多卡的聚合,如果是多机多卡等跨节点的资源需求则依赖任务管理模块将作业切分成多个分布式的任务,然后任务被集群调度框架插件调度到合适的节点,因此节点虚拟化软件和集群调度框架插件必须同时使用才能在一定程度上解决以上问题,目前比较常见的节点虚拟化软件有cGPU、qGPU等云厂商的GPU虚拟化方案,以及开源的GPU Manager。

3. 算力池化解决方案

相较于集群调度框架插件和节点虚拟化软件构成的算力调度解决方案,趋动科技的OrionX AI算力资源池化解决方案是基于软件定义的技术在硬件AI算力之上实现的资源池化,可以实现真正意义上的AI应用与算力的解耦。

这就意味着AI应用可以任意部署,正在运行的AI算力任务可以热迁移,无需跟AI服务器绑定,可以将AI应用部署在CPU的服务器上,通过远程调用的方式访问AI服务器算力,在需要AI算力的时候可以在整个数据中心按需取用。具体表现为AI应用真正运行时才从整个数据中心的AI资源池中分配合适的算力资源,当AI应用执行完成之后,就会把算力资源重新释放到数据中心AI资源池中,让其他的AI应用能够使用。对于AI应用跨节点的资源需求,可以不依赖上层任务管理模块将作业拆分成多个任务,而是直接将多个节点的AI算力资源进行聚合使用。

正因为OrionX是用户态实现的软件定义的AI算力池化方案,因此不需要侵入操作系统内核,同时暴露所有的API便于上层管理平台对接,不管是物理机、虚拟机还是容器、K8S场景,都可以很好的适配。

图片

图:趋动科技OrionX算力池化解决方案

OrionX支持主流的训练和推理框架,通过算力池化技术满足大模型在预训练、监督微调、人类反馈强化学习过程中对于AI算力资源的需求,同时基于共享的理念构建的开发、训练和推理一体化AI算力资源池,帮助企业提升资源利用率5-8倍。

总之,AI算力池化解决方案可在实现多厂商AI算力硬件统一管理、统一运营、统一调度、统一使用的同时,结合软件定义AI算力技术实现AI算力的统筹分配、资源池化、高效保障和运维管理,提高企业的人效和物效,加速企业的业务创新,赋能企业在大模型场景下的价值探索。

4. 算力池化下的大模型应用场景

(一)大模型开发及训练场景:通过资源动态调用、动态释放以及队列优先级等功能,代替传统独占GPU卡的方式,可以让开发和训练资源混合部署,实现资源弹性伸缩,打破GPU资源孤岛,节省GPU卡数量,提升算力运行效率;在大模型训练场景下,还可以利用故障检测和热迁移的能力保障训练的稳定运行,利用作业优先级合理调度算力资源。

(二)大模型微调场景:通过远程调用实现CPU和GPU资源的合理配比,将通用算力和AI算力解耦,从而节省GPU卡资源;还可以通过跨机聚合把多机碎片化的资源进行用于训练任务,大大简化了传统分布式训练任务的配置工作。

(三)大模型推理场景:通过灵活切分可以实现多个大模型并行运行在同一张GPU卡上,基于进程级的封装和隔离避免大模型之间的资源争抢,提升GPU卡的利用率,还可以在不增加硬件的情况下通过显存超分实现业务的叠加,大大提升系统的吞吐量。

(四)大模型算力服务场景:通过自定义算力设备可以屏蔽底层硬件资源型号,实现资源抽象定义,为最终用户提供容易理解的各种规格的自定义算力型号,并通过多级资源池对多K8S集群算力资源进行统一管理和分配,打破资源孤岛,更好地支持多租户的算力管理。

(五)运维场景:通过客户端热迁移和故障卡的自动隔离功能,可以有效保证大模型训练任务连续性,减少业务宕机时间;通过服务端热迁移满足运维人员对于负载均衡、碎片整理以及下线维护等运维场景需求,通过逻辑资源组满足统一AI算力池化后的隔离管理需求,支持多部门基于同一资源池高效开展AI业务。

(六)信创场景:通过异构混部实现海光、寒武纪、华为等国产不同厂商AI算力共池管理,通过交叉拉远让AI业务灵活的访问到整个AI算力池中所有不同厂商的算力资源,基于CUDA on DCU支持将CUDA业务无缝迁移至DCU平台,加速信创改造。

5. 客户案例

目前,趋动科技的OrionX AI算力资源池化解决方案已经在金融、互联网、教育、制造等行业被广泛应用在大模型场景的价值探索。

客户基于开源的LLama、ChatGLM、Baichuan等大模型结合企业内部的私有数据进行微调,之后又将微调后的模型服务于企业内部各业务部门,提升员工的办公效率;也有一些客户部署Stable Diffusion用于素材创作,直接为企业创造价值;还有一些高校的客户基于OrionX AI算力资源池化解决方案构建自己的行业大模型,比如南京农业大学就基于自身对于古籍领域的数据积累,打造了荀子古籍大语言模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/468759.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

每日OJ题_牛客HJ75 公共子串计算(IO型OJ)

目录 牛客HJ75 公共子串计算 解析代码 牛客HJ75 公共子串计算 公共子串计算_牛客题霸_牛客网 解析代码 #include <iostream> using namespace std; int main() {string str1 "", str2 "";cin >> str1 >> str2;int n1 str1.size()…

性能测试-Jmeter常用元件基础使用

一、Jmeter元件 #线程组 添加HTTP请求 #配置元件 配置元件内的元件都是用于进行初始化的东西 #监听器 监听器主要是用来获取我们使用取样器发送请求后的响应数据相关信息 #定时器 定时器主要用来控制我们多久后执行该取样器&#xff08;发送请求&#xff09; #前置处理器 前置处…

测试工具分享:高效完成测试工作!

说在前头 在社会上&#xff0c;特别是技术圈&#xff0c;大家会有刻板印象&#xff1a;测试工作的含金量不高。因为大家觉得测试不重要&#xff0c;导致给测试的薪水也偏低&#xff1b;这又反向导致好的人才不想来测试行业&#xff0c;测试从业人员的平均水平、工作体现的价值…

【ArcPy】栅格数据渲染

import arcpy # 输入数据 inRaster arcpy.Raster(r"C:\测试数据\dem\归一化处理.tif") # 用线性拉伸和NDVI配色方案渲染栅格 rendered_raster arcpy.Render(inRaster, rendering_rule{min: 0, max: 0.8}, colormapNDVI) #栅格单独一行可将栅格数据直接显示 rendere…

打开磁盘清理工具的9种方法,总有一种适合你

前言 你可以在Windows 10和11上使用许多第三方磁盘清理工具来进行清理。但是,别忘了Windows包含自己的磁盘清理工具,你可以使用该工具释放硬盘存储空间。一些第三方替代方案可能有更广泛的清理选项和功能,但磁盘清理仍然是消除多余文件的完美工具。 每个用户都应该不时地进…

使用 Python 编写网络爬虫:从入门到实战

网络爬虫是一种自动化获取网页信息的程序&#xff0c;通常用于数据采集、信息监控等领域。Python 是一种广泛应用于网络爬虫开发的编程语言&#xff0c;具有丰富的库和框架来简化爬虫的编写和执行过程。本文将介绍如何使用 Python 编写网络爬虫&#xff0c;包括基本原理、常用库…

LLM流式方案解决方案和客户端解决方案

背景 接上一篇《LLM大模型统一封装接口解决方案》架构确定后&#xff0c;流式方案非常规请求&#xff0c;需要特殊处理。 本解决方案就是针对上一篇中所需要的流式&#xff08;打字机效果进行编码&#xff09; 什么是SSE SSE&#xff08;Server-Sent Events&#xff0c;服务器发…

鸿蒙App开发学习 - TypeScript编程语言全面开发教程(上)

背景 根据鸿蒙官方的说明&#xff1a; ArkTS是HarmonyOS优选的主力应用开发语言。ArkTS围绕应用开发在TypeScript&#xff08;简称TS&#xff09;生态基础上做了进一步扩展&#xff0c;继承了TS的所有特性&#xff0c;是TS的超集。因此&#xff0c;在学习ArkTS语言之前&#…

蓝牙系列十七:BLE安全机制--地址类型与LL层设备过滤

上一篇我们讲了BLE的安全机制&#xff0c;引入白名单和安全地址的感念&#xff0c;使用白名单来过滤安全设备是BLE种最简单的方法。这一篇我们来详细讲一下这些概念。 一、地址类型 学习资料&#xff1a;官方手册 Vol 6: Core System Package [Low Energy Controller volume…

蓝桥杯学习笔记 单词分析

试题 G: 单词分析 时间限制: 1.0s 内存限制: 512.0MB 本题总分:20 分 [问题描述] 小蓝正在学习一门神奇的语言&#xff0c;这门语言中的单词都是由小写英文字母组成&#xff0c;有些单词很长&#xff0c;远远超过正常英文单词的长度。小蓝学了很长时间也记不住一些单词&#xf…

Spring 3升级指导

一&#xff0c;背景 Spring开源多年&#xff0c;已经经过了多次的升级迭代&#xff0c;最新的已经到Spring 6了&#xff0c;但是估计大家最常用的还是Spring 2.x。 最近项目准备升级到Spring 3&#xff0c;下面简单记录一下升级的改动点。 二&#xff0c;官方指导 1&#x…

深度观察2024中国系统架构师大会(SACC)

今年的中国系统架构师大会&#xff08;SACC&#xff09;在我所在的城市广州举办&#xff0c;很荣幸受邀参加。这次能接触到国内最优秀的架构师&#xff0c;学习他们的架构思想和行业经验。对我而言非常有意义。 大会分为上下午共4场&#xff0c;我参加了上午的多云多活架构设计…

SLAM IPC算法

基础知识&#xff1a;方差&#xff0c;协方差&#xff0c;协方差矩阵 方差&#xff1a;描述了一组随机变量的离散程度 方差 每个样本值 与 全部样本的平均值 相差的平方和 再求平均数&#xff0c;记作&#xff1a; 例如&#xff1a;计算数字1-5的方差&#xff0c;如下 去中心化…

【ZooKeeper】1、基本介绍

本文基于 Apache ZooKeeper Release 3.7.0 版本书写 作于 2022年3月6日 14:22:11 转载请声明 1、Zookeeper是什么&#xff1f; 由ZooKeeper的官网介绍可知&#xff1a; ZooKeeper 是Apache原子基金会下一个开源的、用于提供可靠的分布式协同的服务器。 ZooKeeper 可以用来 配置…

Spring MVC入门(4)

请求 获取Cookie/Session 获取Cookie 传统方式: RequestMapping("/m11")public String method11(HttpServletRequest request, HttpServletResponse response) {//获取所有Cookie信息Cookie[] cookies request.getCookies();//打印Cookie信息StringBuilder build…

Soul CEO张璐团队聚焦AIGC,斩获“年度最具成长潜力”奖

近日,由《财经》新媒体及《财经》商业治理研究院联合主办的第六届“新奖”评选活动落下帷幕。 新型社交平台Soul App在CEO张璐的带领下持续发力AIGC,凭借在“AIGC社交”领域的创新探索及所体现出的巨大成长潜力,荣获新科技板块“年度最具成长潜力奖”,再度凸显其在智能社交方面…

两个独立的高增益运算放大器组成D358,应用于音频放大器、工业控制等。采用 DIP8、SOP8、MSOP8 和 TSSOP8 的封装形式。

一、概述 D358 由两个独立的高增益运算放大器组成。可以是单电源工作&#xff0c;也可以是双电源工作&#xff0c;电源低功耗电流与电源电压大小无关。 应用范围包括音频放大器、工业控制、DC 增益部件和所有常规运算放大电路。 D358 采用 DIP8、SOP8、MSOP8 和 TSSOP8 的封装形…

多功能免费实用的 PDF24工具箱 v11.17.0

PDF24 Creator&#xff08;详情请戳 官网&#xff09;是一款完全免费且优秀实用的PDF工具箱软件&#xff0c;PDF24工具箱包含PDF分割/合并、PDF压缩、PDF编辑器、PDF加密/解密、PDF页面/图像提取、PDF比较、PDF转换、添加PDF水印、PDF文本OCR识别等多种功能&#xff0c;PDF24工…

C++初阶:string类的模拟自实现

目录 1. 引子2. 自实现string类功能模块3. string类功能模块的具体实现3.1 默认成员函数3.2 遍历访问相关成员函数3.3 信息插入相关成员函数3.4 信息删除3.5 信息查找3.6 非成员函数3.7 杂项成员函数 4. 补充知识 1. 引子 通过对string类的初步学习&#xff0c;没有对知识进行较…

大数据面试题 —— Zookeeper

目录 ZooKeeper 的定义ZooKeeper 的特点ZooKeeper 的应用场景你觉得Zookeeper比较重要的功能ZooKeeper 的选举机制 ***zookeeper主节点故障&#xff0c;如何重新选举&#xff1f;ZooKeeper 的监听原理 ***zookeeper集群的节点数为什么建议奇数台 ***ZooKeeper 的部署方式有哪几…