科技云报道:云原生是大模型“降本增效”的解药吗?

科技云报道原创。

在过去一两年里,以GPT和Diffusion model为代表的大语言模型和生成式AI,将人们对AI的期待推向了一个新高峰,并吸引了千行百业尝试在业务中利用大模型。

国内各家大厂在大模型领域展开了激烈的军备竞赛,如:文心大模型、通义千问、混元大模型、盘古大模型等等,这些超大规模的模型训练参数都在千亿以上,有的甚至超过万亿级。

即便训练一次千亿参数量模型的成本可能就高达数百万美元,但大厂们依然拼尽全力,除此之外也有很多行业企业希望拥有自己的专属大模型。

对于企业来说,要想在大模型的竞争中胜出,就必须充分利用算力,并且构建高效稳定的服务运行环境,这就对IT基础设施能力提出了更高的要求。

而云原生正是比拼的重要一环。云原生技术的自动化部署和管理、弹性伸缩等功能,能够有效提高大模型应用效率并降低成本。

据Gartner预测,2023年70%的AI应用会基于容器和Serverless技术开发。在实际生产中,越来越多的AI业务,比如自动驾驶、NLP等,也正在转向容器化部署。

那么,云原生是如何帮助大模型降本增效,在这个过程中又遇到了哪些挑战?
在这里插入图片描述
云原生成为大模型的标配

近年来,容器和Kubernetes已经成为越来越多AI应用首选的运行环境和平台。

一方面,Kubernetes帮助用户标准化异构资源和运行时环境、简化运维流程;另一方面,AI这种重度依赖GPU的场景可以利用K8s的弹性优势节省资源成本。

随着大模型浪潮的到来,以云原生环境运行AI应用正在变成一种事实标准。

弹性伸缩与资源管理

大模型训练往往需要大量的计算资源,而云原生环境通过容器化和编排工具可以实现资源的弹性调度与自动扩缩容。

这意味着在大模型训练过程中可以迅速获取所需资源,并在任务完成后释放资源,降低闲置成本。

分布式计算支持

云原生架构天然支持分布式系统,大模型训练过程中的并行计算需求可以通过云上的分布式集群轻松实现,从而加速模型收敛速度。

微服务架构与模块化设计

大模型推理服务可以被分解为多个微服务,比如预处理服务、模型加载服务和后处理服务等,这些服务能够在云原生环境中独立部署、升级和扩展,提高系统的可维护性和迭代效率。

持续集成/持续部署(CI/CD)

云原生理念强调快速迭代和自动化运维,借助CI/CD流程,大模型的研发团队能够以更高效的方式构建、测试和部署模型版本,确保模型更新的敏捷性。

存储与数据处理

云原生提供了多种数据持久化和临时存储解决方案,有助于解决大模型所需的大量数据读取和写入问题。

同时,利用云上大数据处理和流式计算能力可以对大规模数据进行有效预处理和后处理。

可观测性和故障恢复

在云原生环境下,监控、日志和追踪功能完善,使得大模型服务的状态更加透明,遇到问题时能更快地定位和修复,保证服务高可用性。

总体而言,云原生架构的诸多优势契合了大模型在计算密集、数据驱动、迭代频繁等方面的需求,能够为大模型带来成本、性能、效率等多方面的价值,因而成为大模型发展的标配。

大模型对云原生能力提出新挑战

尽管云原生对于大模型有着天然的优势,但是面对LLM、AIGC这样的新领域,依然对云原生能力提出了更多挑战。

在训练阶段,大模型对计算、存储、网络等基础架构的要求都更高。

规模上,要训练出具有广泛知识和专业领域理解及推理能力的大语言模型,往往需要高达万卡级别的GPU集群和PB级的数据存储以及TB级的数据吞吐。

此外,高性能网络也将达到单机800Gbps甚至3.2Tbps的RDMA互联。

性能方面,随着模型体积和参数量的增长,单张显卡已无法承载完整的模型。因此需要使用多张显卡进行分布式训练,并采用各种混合并行策略进行加速。

这些策略包括数据并行、模型并行、流水线并行以及针对语言模型的序列并行等,以及各种复杂的组合策略。

在推理阶段,大模型需要提供高效且稳定的推理服务,这需要不断优化其性能,并确保服务质量(QoS)得到保证。

在此基础上,最重要的目标是提高资源效率和工程效率。一方面,持续提高资源利用效率,并通过弹性扩展资源规模,以应对突发的计算需求。

另一方面,要最优化算法人员的工作效率,提高模型迭代速度和质量。

由此可见,大模型对云原生技术提出了新的能力要求:

一是,统一管理异构资源,提升资源利用率。

从异构资源管理的角度,对IaaS云服务或者IDC内的各种异构计算(如 CPU,GPU,NPU,VPU,FPGA,ASIC)、存储(OSS,NAS, CPFS,HDFS)、网络(TCP, RDMA)资源进行抽象,统一管理、运维和分配,通过弹性和软硬协同优化,持续提升资源利用率。

在运维过程中,需要多维度的异构资源可观测性,包括监控、健康检查、告警、自愈等自动化运维能力。

对于宝贵的计算资源,如GPU和NPU等加速器,需要通过各种调度、隔离和共享的方法,最大限度地提高其利用率。

在此过程中,还需要持续利用云资源的弹性特征,持续提高资源的交付和使用效率。

二是,通过统一工作流和调度,实现 AI、大数据等多类复杂任务的高效管理。

对于大规模分布式AI任务,需要提供丰富的任务调度策略,如Gang scheduling、Capacity scheduling、Topology aware scheduling、优先级队列等,并使用工作流或数据流的方式串联起整个任务流水线。

同时,需兼容Tensorflow,Pytorch,Horovod,ONNX,Spark,Flink等各种计算引擎和运行时,统一运行各类异构工作负载流程,统一管理作业生命周期,统一调度任务工作流,保证任务规模和性能。

一方面不断提升运行任务的性价比,另一方面持续改善开发运维体验和工程效率。

此外,在计算框架与算法层面适配资源弹性能力,提供弹性训练和弹性推理服务,优化任务整体运行成本。

除了计算任务优化,还应关注数据使用效率的优化。为此,需要统一的数据集管理、模型管理和访问性能优化等功能,并通过标准API和开放式架构使其易于被业务应用程序集成。

对于大模型还有一个主要能力,就是能够在分钟级内准备好开发环境和集群测试环境,帮助算法工程师开始执行深度学习任务。

把端到端的 AI 生产过程通过相同的编程模型、运维方式进行交付。

结语

随着大模型等AI技术的不断发展,云原生技术将面临一些新的挑战和需求。例如,如何快速适应新的开源大模型训练方法,以及如何提高大模型推理性能并确保其质量和稳定性。

同时,也需要关注一些前沿技术和创新能力,通过标准化和可编程的方式来集成,不断迭代业务应用,形成 AI+ 或 LLM+ 的新应用开发模式和编程模型。

但无论技术如何发展,为大模型提供快速、准确、稳定且成本可控的服务,保证大模型训练和推理的成本、性能和效率,都将成为企业为其价值买单的根本。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/396670.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

每日学习总结20240219

每日总结 20240219 1.文件类型.csv CSV文件是一种以逗号分隔值(Comma-Separated Values)为标记的文本文件,它可以用来存储表格数据。每一行表示一条记录,而每一条记录中的字段则使用逗号或其他特定的分隔符进行分隔。 常用场景…

计算机服务器中了halo勒索病毒怎么办?Halo勒索病毒解密数据恢复

众所周知,网络是一把双刃剑,在为人们提供便利的同时,也会带来网络安全威胁。对于企业来说,企业的发展离不开核心数据支撑,数据安全问题是众多企业关心的主要话题。近日,云天数据恢复中心接到很多企业的求助…

Deep Learning with OpenCV DNN Module介绍

Deep Learning with OpenCV DNN Module介绍 1. 源由2. 为什么/什么是OpenCV DNN Module?2.1 支持的不同深度学习功能2.2 支持的不同模型2.3 支持的不同框架 3. 如何使用OpenCV DNN模块3.1 使用从Keras和PyTorch等不同框架转换为ONNX格式的模型3.2 使用OpenCV DNN模块的基本步骤…

MySQL学习Day18——逻辑架构

一、逻辑架构剖析: 1.服务器处理客户端请求: 首先 MySQL 是典型的C/S架构,即client/Server架构,服务器端程序使用的mysqld。不论客户端进程和服务器进程是采用哪种方式进行通信,最后实现的效果都是:客户端进程向服务器进程发送段文本(SQL语…

【elk查日志 elastic(kibana)】

文章目录 概要具体的使用方式一:查找接口调用历史二:查找自己的打印日志三:查找错误日志 概要 每次查日志,我都需要别人帮我,时间长了总觉得不好意思,所以这次下定决心好好的梳理一下,怎么查日…

14-k8s控制器资源-rs控制器replicasets

replicaset副本控制器,简称:rs控制器; 用法:与rc控制器“几乎”相同; 能力:可以指定pod的副本始终存活,相比于rc控制器;支持标签匹配,也支持标签表达式 注意:…

Camunda快速入门(四):设计一个带网关的流程

接上一篇文章:Camunda快速入门(三):设计一个人工任务流程并配置表单 在本节中,您将学习如何使用 BPMN 2.0 排他网关(Exclusive Gateways)使流程更加动态。 1、添加两个网关 我们想修改我们的…

自己动手写编译器:使用 PDA 实现增强和属性语法的解析

在前面章节中我们了解了增强语法和属性语法,特别是看到了这两种语法的结合体,本节我们看看如何使用前面我们说过的自顶向下自动机来实现这两种语法结合体的解析,这里使用的方法也是成熟编译器常用的一种语法解析算法。 首先我们先给出上一节…

虚拟机--pc端和macOS端互通

windows开启虚拟化 要在Windows系统中开启虚拟化,您可以按照以下步骤操作: 准备工作: 确保您的计算机CPU支持虚拟化技术。在BIOS中开启相应的虚拟化支持。 开启虚拟化: 打开控制面板,点击程序或功能项&am…

普通人如何开启真正的赚钱之路

您好,我是码农飞哥(wei158556),感谢您阅读本文,欢迎一键三连哦。💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通…

FastAPI学习-31 FastAPI 如何集成 socket.io

前言 socket.io就是基于 websocket 封装的一个库,主要特点是能够进行实时的双向通讯,主要应用场景有实时的聊天,数据实时分析,数据传输,文件协同合作。 有个 socket.io 的fastapi-socketio官方库,该库依赖…

机器学习基础(一)理解机器学习的本质

导读:在本文中,将深入探索机器学习的根本原理,包括基本概念、分类及如何通过构建预测模型来应用这些理论。 目录 机器学习 机器学习概念 相关概念 机器学习根本:模型 数据的语言:特征与标签 训练与测试&#xf…

Leetcode3011. 判断一个数组是否可以变为有序

Every day a Leetcode 题目来源:3011. 判断一个数组是否可以变为有序 解法1:分组循环 排序 适用场景:按照题目要求,数组会被分割成若干组,每一组的判断/处理逻辑是相同的。 核心思想: 外层循环负责遍…

计算机网络-广域通信网

1.广域网概念和分类 什么是广域网? 广域网是指长距离跨地区的各种局域网、计算机、终端互联在一起,组成一个资源共享的通信网络。 广域网分为传统广域网和现代广域网。 传 统 广 域 网公共交换电话网PSTN公共数据网X.25帧中继网FR综合业务数据网ISDN…

三.重新回炉Spring Framework:Resource资源加载策略

1. Spring Framework中的资源Resource 1.1 Resource的源码 在org.springframework.core.io包中的Resource接口,作为所有资源的统一抽象,它继承 org.springframework.core.io.InputStreamSource接口,在Resource 定义了一些通用的方法&#x…

户用光伏开发如何做到病毒式推广?

随着全球对可再生能源的需求日益增加,户用光伏作为一种清洁、高效的能源解决方案,正受到越来越多的关注和青睐。然而,如何有效地推广户用光伏,使其迅速传播,成为当前行业面临的重要课题。 一、明确目标群体&#xff0…

SpringBoot常见问题

1 引言 Spring Boot是一个基于Spring框架的快速开发脚手架,它简化了Spring应用的初始化和搭建过程,提供了众多便利的功能和特性,比如自动配置、嵌入式Tomcat等,让开发人员可以更加专注于业务逻辑的实现。   Spring Boot还提供了…

【CANoe示例分析】EthernetTC8Test

1、工程路径 C:\Users\Public\Documents\Vector\CANoe\Sample Configurations 15.3.89\Ethernet\Test\EthernetTC8Test 在CANoe软件上也可以打开此工程:File|Help|Sample Configurations|Ethernet Testing|TC8Test(Ethernet) 2、示例目的 TC8示例是作者本人使用最多的CANo…

macOS上使用VScode编译配置C++语言开发环境

本文介绍macOS上使用VScode编译配置C语言开发环境 1.准备工作 安装C/C插件 2.配置c_cpp_properties.json文件 [⇧⌘P]打开命令模式,选择[C/Cpp: Edit Configurations(JSON)]命令,回车后会自动生成一个.vscode目录,目录下有一个c_cpp_prope…

ADS-B Receiver Module TT-SC1 for UAV and Drones

目录 Introduction Applications Main features Technical parameters Basic technical information Electrical specification Recommended operation conditions General electrical parameters Introduction TT-SC1 is a high quality and low price OEM ADS-B…
最新文章