AI 为先的时代,企业如何深度用云?

「又一年云栖,SOFAStack 走向云原生深处。」

SOFAStack 5.0 与蚂蚁集团代码大模型 CodeFuse 全面融合,涵盖设计、研发、测试、运维等领域,提供从领域建模到智能运维的端到端 Copilot 产品解决方案,为企业打造新一代 AI 云原生 PaaS 平台。

*以下摘自蚂蚁集团数字科技事业群云原生科技产品总监马振雄在2023云栖大会的分享:

首先,自我介绍 SOFAStack 是什么 ?

大家都知道蚂蚁数字化三件套:mPaaS、SOFAStack 和 OceanBase。

以饭店为例,如果把业务比作一盘菜,云计算是水电煤这样的基础资源,数据是食材和调料,OceanBase 是一个能把食材数据做管理存储和查询计算的仓库,那么 SOFAStack 则像一个厨房,把食材和调料做高效的烹饪、切割以及装盘,将食材变成食物。mPaaS 更多像是饭店的前厅,帮助客户更好地获客、点餐、用餐以及结账,完成客户对客界面的完整体验。这就是蚂蚁数字三件套彼此之间的关系。

经过一系列实践,我们也观察到目前企业应用上云出现了三大趋势——更异构、更智能、更经济。今天的主题主要围绕这三大趋势展开,与大家分享蚂蚁云原生 PaaS 在核心系统上云的实践。

企业上云三大趋势:更异构

从互联网云原生企业,到越来越多传统行业,都在尝试核心系统上云,甚至已经不满足于集中式中心化的云,而是需要更轻量的小型云,或者边缘节点的云。在面对云的形态更加异构复杂的情况下,企业会更关注云背后统一平滑迁移的能力。

这是云原生第一个趋势——更异构,包含了资源异构、应用异构以及云形态异构。

  • 资源异构

目前有 70% 到 80% 的存量应用仍跑在云外虚拟化的资源上,还有一些自研云和外采云等多云资源,这背后需要将不同资源进行统一纳管。

传统做法是先用容器屏蔽异构资源,在传统的虚拟化之上叠加一层容器。因此资源没有办法充分做到统一精细化调度,整个资源利用率无法做到极致,并且运维复杂度直线提升,这也直接导致虚拟和容器在网络和存储方面,难以实现统一标准化管理。

所以我们在实践过程中,定义出下一代更符合云原生高效率的计算架构,通过把容器和虚拟化做统一拉平,统一调度。

同时,对于 AI 时代的到来,算力和 GPU 资源的消耗和需求是空前绝后,但是绝大部分企业在储备 GPU 算力过程当中,资源利用率基本上平均水位在 10% 到 30% 左右。这也意味着,企业需要对 GPU 精细化管理做统一的虚拟化和池化。

以往,传统 GPU 虚拟化只能做到物理卡的显存切分,比较粗粒度 GPU 的调度。SOFA 能够进一步将显存和算力两个维度做精细化切分,切分到最低颗粒度的调度,满足不同业务对于算力和显存的要求,同时对于不同业务需要,可以做到统一的精细化并行调度。

另外,传统的应用可能跑在虚拟机,新型的应用跑在容器,我们也支持 GPU 的算力和显存能绑定虚机和容器两种不同的形态,支持应用可以更平滑的迁移。

  • 应用异构

随着越来越多传统行业把核心系统进行上云,未来将面临着更多云下存量异构的应用上云,这些应用的特征在于开发框架不一致,通信协议不一致,编程语言以及所需部署资源的形态也都不一致,这些存量的系统称之为「历史包袱」,如果直接将「历史包袱」统一作为应用上云,将面对很多挑战。

首先新老系统之间无法在统一的管控界面上进行管控治理,意味着需要两套平台来管控新老应用。

其次,如果让应用改造成云原生的方式去上云,意味着需要相当大的改造成本,把单体式的应用,改造成云原生或微服务架构。因此我们需要一个更平滑、更轻量的方式,帮助企业的「历史包袱」顺利上云。

最后,即使改造成微服务之后,仍然面临着是不是要进一步将整个应用架构和框架能力做进一步解耦。

以蚂蚁集团为例,有成千上万个应用,这些应用都改造成了微服务的架构,但是蚂蚁横向基础设施团队,负责整个云原生的基础设施,他们需要将业务部门背后的几千个应用统一打包发布部署,配合底盘能力的升级,完成应用的变更,这对所有业务部门造成打扰,并且带来的变更故障风险。

基于蚂蚁的实践,通过将所有微服务的应用进一步升级成 Mesh 化的服务网格应用,通过植入 Mesh 编程的形式,我们将微服务耦合在应用里的 SDK 逻辑,下沉到服务网格里的编程,实现了应用和底层框架能力的解耦。

通过这种方式,能够在业务部门无感的同时,横向基础设施团队能够高效进行框架能力升级。以往,我们一年只能做一到两次升级,随着全面 Mesh 化后,演变为一个月能够做十几次甚至几十次底盘能力和框架能力的升级,极大提升了企业的组织效率。

Mesh 在帮助我们进行应用改造的同时,也能够进一步支持平滑的迁移。应用在接入Mesh 过程当中,没有接入 Mesh 和接入 Mesh 的应用可以平滑通信,在同一个平台上进行管控和服务的治理。

  • 云形态的异构

刚才提到的越来越多传统行业不满足于建一些中心化的大型云,需要在周围边缘的节点建立一些小型的云,这些云需要轻量化的方式,但是需要跟中心云统一通信协同和统一纳管。

当我们尝试去大力发展边缘业务的同时,随着边缘设备增多,边缘业务逐渐复杂,意味着传统中心化的云计算计算存储网络模型,已经不太适合于边缘业务节点对于时效、对于容量和算力的要求。

其次,对于边缘形态业务的丰富,包括边缘的智能,边缘的实时计算,边缘的分析等等这些新兴业务的诞生,意味着边缘云背后异构业务统一运维复杂度也在上升。对于中心云、边缘云、端,这三个节点如何进行统一的资源管控和应用管控,带来极大挑战。

对此,蚂蚁的实践是提出了统一的云边协同架构。核心准则是:云端统一管控,边缘端在弱网和断网的情况下自治,保证稳定性和业务的延续。

企业上云三大趋势:更智能

大模型和 AIGC 都在寻找应用场景,如果大模型是非常强劲的发动机,客户需要的是装有这台强劲发动机背后的一辆宝马,也就是真正能让发挥作用的场景。

蚂蚁认为在研发效能领域,有着非常好的大模型落地场景,因为大模型和 AIGC 技术可以为架构师、开发人员、测试人员带来结构性和颠覆性的研发模式和测试模式的重构,带来研发和测试效率的提升。

蚂蚁自研 340 亿参数级别 CodeFuse 代码大模型,支持 JavaScript、Python、Go、C++ 等 40 多种编程语言。在 HumanEval 评测中,CodeFuse 得分 74.4%,超过 GPT-4(67%)的成绩。

本次 SOFAStack5.0 升级,CodeFuse 已经与 SOFA 产品线全面融合,通过人机交互助手提升日常代码研发、测试、运维过程中的效率和质量。对企业而言,可以显著提升研发效能,降低总体成本。

在运维方面,核心系统上云背后,稳定性要求非常高,最重要也是最核心是两大风险敞口:

  • 变更,行业普遍认为,75% 甚至 80% 的故障都是由变更引起,变更永远是最大的罪魁祸首。如何通过智能化的能力,进一步降低变更所带来的故障风险?这是我们需要思考的首要原则。
  • 硬件,从以前核心系统承载主机系统的稳定,到开始尝试往去 IOA 的方式落到云,落到分布式 X86 集群,这意味着硬件稳定性的下降,同时也代表着故障不可避免,在故障不可避免的前提下,如何提高发现问题、定位问题以及解决问题的效率,这是我们思考的第二个核心原则。

对于变更而言,蚂蚁有完整的变更三板斧:可监控,可灰度,可回滚。这九个字,包含着更复杂变更前置和后置的校验。这背后运用到大量的智能化和自动化能力,帮助运维人员进一步提效,完成变更风险的防控。

另外,对于硬件风险既然不可避免,如何去提高故障应急效率,为此蚂蚁沉淀的体系是 1-5-10 的体系,即 1 分钟发现故障,5 分钟定位故障的原因,再到 10 分钟恢复故障,完成故障的止血和恢复。

为此,我们升级了蚂蚁 SRE 技术风险体系与故障应急体系,通过智能化能力升级,完成智能的监控、智能的降噪,智能的运维,智能异常检测,智能的根因定位,再到智能的自愈等等。

企业上云三大趋势:更经济

任何时候,降本仍然是每个行业极致追求的目标。同时对于 2030「碳达峰」以及 2060「碳中和」来说,更需要思考在云原生发展到未来的阶段,如何进一步进行绿色减排?整个云计算爆发期给整个社会和企业带来不可避免的能耗问题,应该在哪个环节尝试去做一些减排和降本的工作?

我们认为,云计算和云原生未来的趋势重点应该放在算力的应用阶段。

为此,蚂蚁定义了根技术之一的绿色计算,通过绿色计算背后的三个核心技术——在离线混部、云原生分时调度,以及 AI 智能弹性容量,能够帮助更多企业进一步降本减排。

通过绿色计算的实践,我们在过去几年从以前的机房资源利用率 9% 提升了 4 倍,到接近 40%,同时每年节省约 600 万度的电,包括前几年已经完成超过 1600 吨碳排放,无论是从资源利用率提升,还是到节能减排,都做出了不错的成效。

对于在离线混部而言,面对的挑战是资源利用率低效,以前离线的业务和在线的业务是分开部署。我们通过在离线的混部,白天密集型计算型消耗的在线业务,再到晚上离线数据跑批的业务进行统一的混合部署,提升部署密度的同时,加强在不同级别,包括 OS 内核隔离,保证资源稳定性的同时,通过错峰混部方式提升资源利用率。

此外,我们还进一步实践了云原生分时调度,分时调度背后核心原理是把整个应用分成运行态和保活态。运行态是完整热的状态,全功耗运行,保活态是以更低功耗、更低资源部署的要求稳定运行,但它可以非常快速地转化成运行形态,我们称之为温的状态。这意味着温可以快速实时地一键转换成运行态,同时资源部署要求非常低,意味着可以用更低的资源消耗,同时去管理更多错峰的在线业务。

最后对于容量风险,很多时候会发现,除了变更带来的故障风险,其实容量不可预测也会带来很多的故障或者风险。

通过智能 AI 模型,在事前通过持续等不同基线数据分析,能够更快、更早地识别容量风险;同时,通过智能 AI 模型去实现更智能的弹性伸缩算法,从被动式响应式的扩缩容,变成预测式前置性的扩缩容。

基于更异构、更智能、更经济三个趋势背后一些洞察、思考和实践,我们升级了蚂蚁云原生 SOFAStack 整个的 PaaS,SOFAStack5.0 升级包含四个内涵——智能、可信、绿色以及多云。

通过绿色计算能力,让 SOFAStack 能够减排降本,变得更绿色;通过大模型 AIGC技术,从研发到测试再到运维,全面升级智能化,让 SOFAStack 变得更智能;通过对 GPU 和 CPU 的混合调度,以及定义下一代云原生计算架构,让 SOFAStack 变得更多云;通过对计算环境、软件供应链以及全方面的安全能力内置的增强,让 SOFAStack 变得更可信。

SOFAStack 源于支付宝,从服务金融行业中成长,正进一步走向全行业,服务更多的企业和客户,助力完成云原生化的升级,力争做 AI 时代最好的云原生应用的操作系统及底座。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/126933.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python - 利用 OCR 技术提取视频台词、字幕

目录 一.引言 二.视频处理 1.视频样式 2.视频截取 ◆ 裁切降帧 ◆ 处理效果 3.视频分段 三.OCR 处理 1.视频帧处理 2.文本识别结果 3.后续工作与优化 ◆ 识别去重 ◆ 多线程提效 ◆ 片头片尾优化 四.总结 一.引言 视频经常会配套对应的台词或者字幕&#xff0c…

Modern C++ 转换构造函数和类型转换函数

在 C/C 中,不同的数据类型之间可以相互转换。无需用户指明如何转换的称为自动类型转换(隐式类型转换),需要用户显式地指明如何转换的称为强制类型转换。 不管是自动类型转换还是强制类型转换,前提必须是编译器知道如何…

温故知新:探究Android UI 绘制刷新流程

一、说明: 基于之前的了解知道ui的绘制最终会走到Android的ViewRootImpl中scheduleTraversals进行发送接收vsync信号绘制,在ViewRootImpl中还会进行主线程检测,也就是我们所谓子线程更新ui会抛出异常。 像我们常用的刷新ui,inval…

华为ipsec vpn双链路主备备份配置案例

配置就是这配置,意外是完成后不通,待以后处理! FW_A配置: dhcp enable ip-link check enable ip-link name check_b destination 2.2.2.2 interface GigabitEthernet1/0/0 mode icmp next-hop 202.38.163.2 acl number 3000 rul…

新方向!文心一言X具身智能,用LLM大模型驱动智能小车

具身智能已成为近年来研究的热点领域之一。具身智能强调将智能体与实体环境相结合,通过智能体与环境的交互,来感知和理解世界,最终实现在真实环境中的自主决策和运动控制。 如何基于文心大模型,低成本入门“具身智能”&#xff0…

振南技术干货集:C语言的一些“骚操作”及其深层理解(2)

注解目录 第二章《c语言的一些“操作”及其深层理解》 一、字符串的实质就是指针 (如何将 35 转为对应的十六进制字符串”0X23”?) 二 、转义符\ (打入字符串内部的“奸细”。) 三、字符串常量的连接 &#xff…

JAVA基础1:Java概述

1.JAVA语言 语言:人与人交流沟通的表达方式 计算机语言:人与计算机之间进行信息交流沟通的一种特殊语言 JAVA语言是美国Sun公司在1995年推出的计算机语言 JAVA之父:詹姆斯高斯林 2.JAVA语言跨平台原理 跨平台:JAVA程序可以在…

Yolov5 + 界面PyQt5 +.exe文件部署运行

介绍 Yolov5是一种基于深度学习的目标检测算法,PyQt5是一个Python编写的GUI框架,用于创建交互式界面。在部署和运行Yolov5模型时,结合PyQt5可以方便地创建一个用户友好的界面,并将代码打包为.exe文件以供其他人使用。 下面是一个…

学者观察 | 联邦学习与区块链、大模型等新技术的融合与挑战-北京航空航天大学童咏昕

导语 当下,数据已成为经济社会发展中不可或缺的生产要素,正在发挥越来越大的价值。但是在数据使用过程中,由于隐私、合规或者无法完全信任合作方等原因,数据的拥有者并不希望彻底和他方共享数据。为解决原始数据自主可控与数据跨…

新登录接口独立版变现宝升级版知识付费小程序-多领域素材资源知识变现营销系统

源码简介: 资源入口 点击进入 源码亲测无bug,含前后端源码,非线传,修复最新登录接口 梦想贩卖机升级版,变现宝吸取了资源变现类产品的很多优点,摒弃了那些无关紧要的东西,使本产品在运营和变现…

线上SQL超时场景分析-MySQL超时之间隙锁 | 京东物流技术团队

前言 之前遇到过一个由MySQL间隙锁引发线上sql执行超时的场景,记录一下。 背景说明 分布式事务消息表:业务上使用消息表的方式,依赖本地事务,实现了一套分布式事务方案 消息表名:mq_messages 数据量:3…

【LeetCode:2300. 咒语和药水的成功对数 | 二分】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

“三大阶段稳定性测试”筑牢长安链信任基石

前言 随着长安链应用生态的不断丰富、面对的应用场景更加多元,稳定性测试在长安链测试流程中占到越来越重要的位置。本文将介绍长安链稳定性测试的发展历程及如何通过三大阶段稳定性测试应对不断出现的复杂的商业需求,筑牢长安链信任基石。 功能测试和…

IDEA 设置 Git 在左侧展示

File->settings->Version Control->commit 勾选 Use non-model commit interface

AI:77-基于深度学习的工业缺陷检测

🚀 本文选自专栏:人工智能领域200例教程专栏 《人工智能领域200例教程专栏》从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,通过本专栏案例和项目实践,都有参考学习意义。每篇案例都包含代码实例,详细讲解供大家学习。 ✨✨✨ 每一个案例都附带有代码,在本…

MySQL -- 视图

MySQL – 视图 文章目录 MySQL -- 视图一、基本使用二、视图规则和限制 视图是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。视图的数据变化会影响到基表,基表的数据变化也会影响到视图。 一、基本使用…

更新 | Apinto 网关 V0.15 版本发布!

该插件支持对后端服务返回的响应信息进行过滤,包括响应头部、响应体。过滤的响应体字段或响应头将会被移除,不会返回给客户端,从而避免敏感信息的泄漏。 若此时上游服务返回的响应体为: {"code":0,"data":{…

Redis-命令操作Redis

目录 一.Redis简介 二.Redis安装 2.1.Linux安装 2.2.Windows安装 三.Redis常用命令 3.1 Redis字符串 3.2 Redis哈希(Hash) 3.3 Redis列表(List) 3.4 Redis集合(Set) 好啦今天就到这里了!!希望能帮…

如何将系统盘MBR转GPT?无损教程分享!

什么是MBR和GPT? MBR和GPT是磁盘的两种分区形式:MBR(主引导记录)和GPT(GUID分区表)。 新硬盘不能直接用来保存数据。使用前应将其初始化为MBR或GPT分区形式。但是,如果您在MBR时需…

软件工程一些图的画法

软件工程一些图的画法 【一】数据库设计:ER图【1】ER图简介【2】实体之间的关系【3】ER图绘制常见问题【4】ER图转关系模式 【二】流程图【1】流程图的作用【2】流程图中使用的符号【3】三种循环的流程图画法【4】流程图的基本结构【5】流程图常用的形式 【一】数据…