占预算仅20%,却是影响算力性能的关键

作者:林小引 戴尔科技解决方案架构师

ChatGPT迅速火爆全球后,人工智能进入了“暴力美学”时代。所谓暴力美学就是我们把模型的架构做到了超大规模,把算力的需求做到超大规模,训练的数据做到超大规模。

如果说算力是人工智能发展的引擎,那么数据就是人工智能发展的燃料。AI应用的核心是高质量数据,数据的质量又决定着算法的性能、泛化能力和应用效果,而高质量数据的得到又与存力(即数据存储能力)息息相关,存力是释放数据价值必不可少的关键因素

但目前,从业界AI项目的建设情况看,“重算力、轻存力”的现象较为明显,大部分用户非常看重GPU等算力资源的部署,却往往忽视了存力建设的重要性

其实按照英伟达的官方资料显示:一个AI数据中心购置预算的构成中,存储仅占20%。但恰恰是这20%的存储往往成为限制AI算力性能和AI团队效率发挥的瓶颈。

图片

那么今天,我们就来谈一谈用于人工智能的存储该如何选型。而在选型之前,我们不妨先来了解一下深度学习的数据流是怎样的?以及对存储有哪些挑战?

深度学习的数据流

图片

以AI的训练为例,首先,外部数据经过收集后,会注入到原始数据的存储中。在这里,数据会经过大量的数据清洗、数据转换、数据增强、数据标准化、数据打标签等数据预处理工作,然后通过元数据管理、数据分片等数据组织工作将预处理数据转换为训练数据

算力集群分批读取训练数据馈入AI模型的神经网络,经过一系列的前向传播、反向传播、梯度下降来训练模型,并通过对模型性能的评估来进行迭代,这其中包括改变模型参数、调整模型架构或者更换优化器等,最终得到一个预训练模型并保存在模型仓库中。

在这个过程中,通常需要耗费大量的时间和计算资源。由于训练时间较长,如果训练过程中出现异常或不得已而中断了训练,通常使用checkpoint来保存当前的模型状态,以便在下一次训练时,可以从这个保存的状态继续训练,而不需要从头开始。

此外,在一些特定场景或者计算资源不足的情况下,还可以直接对预训练模型做微调,此时需要少量的有标签微调训练数据。那么在这样一个复杂的流程和海量数据规模下,如何对AI存储进行选型呢?

AI存储选型的挑战

挑战一,存储性能“卡脖子”

AI存储选型的第一大挑战就是存储性能不能成为瓶颈。

在以上流程中,预处理数据的存储和训练数据的存储是对性能要求最高的。如果这两部分的存储性能不够,会导致算力集群中的GPU和CPU资源利用率降低。而算力成本占据了整个数据中心成本的70%,算力利用率的降低就是对资源极大的浪费。

戴尔科技集团的PowerScale存储在支持人工智能应用的高性能方面具有多个特性,这些特性使其成为AI工作负载的理想选择。具体来说:

1、增强的AI性能:PowerScale通过与NVIDIA DGX SuperPOD的验证合作,增强了OneFS软件的功能,使得企业能够更快地准备、训练、微调和推理AI模型。同时PowerScale将是唯一一个经过NVIDIA DGX SuperPOD验证的以太网存储。

2、高性能存储:PowerScale节点提供了高性能存储,特别是NVMe PowerScale节点,这为需要快速读写大量数据的AI应用提供了强有力的支持。并且,PowerScale通过了NVIDIA GPU Direct Storage认证,该存储与GPU直通功能,可在存储和GPU之间直接进行数据传输并提升2-8倍的带宽, 降低3.8倍的端到端延迟,同时减轻了AI服务器CPU和内存的消耗。

3、高度弹性:PowerScale具备高度弹性,能够根据企业的需求伸缩自如,简捷如一。这意味着它可以根据AI工作负载的变化动态调整资源,保持高效的运行状态。

4、智能横向扩展功能:PowerScale具有智能横向扩展功能,有效地分配资源,帮助客户在集群中获得最优化的性能,这对于需要处理大规模数据集的AI应用尤为重要

图片

挑战二,存储架构太复杂

AI存储选型的第二大挑战是存储不能太复杂,需要尽可能简化数据流动过程中存储的处理。

我们可以看到AI数据的存储有很多个,包括原始数据存储、预处理数据存储、训练数据存储等,有的AI场景甚至还会包括一些辅助工具所需的存储,比如RAG应用中向量数据库的存储,数据预处理(如Spark)和大数据分析(如Hadoop)使用的HDFS/S3存储等。

在现实中,一方面,数据科学家团队和数据工程师团队往往会按照自己的需求采购存储。而另一方面,按照英伟达建议的AI数据存储架构,存储是按照存储容量和性能进行分级的

图片

当以上两个因素叠加起来,往往就会形成多个数据存储竖井——不同品牌、不同种类的存储混杂在企业内部,而这种混杂带来几个维度上的复杂性:

数据管理

○相同的数据在不同的存储中存放的位置不一致

○数据治理环节需要管理多个元数据

存储效率

○无法跨越多个存储进行全局统一的冷热自动分层调度

○无法跨越多个存储实现全局统一的数据去重

○如果存储有压缩功能,数据每进出一次存储就会有一次压缩/解压缩,跨多个存储调度数据需要多次进行压缩/解压缩,浪费存力

存储运维

○不同的项目组对数据的访问权限不同,需要对多个存储设置相关访问权限

○跨越多个存储无法实现统一的快照策略,需要单独维护每个存储的快照策略

○跨越多个存储无法实现统一的数据容灾保护,需要单独为每一个存储提供复制保护

图片

作为横向扩展文件存储系统,Dell PowerScale通过OneFS操作系统,可以为不同类型的AI数据提供统一数据湖支持:包括统一的数据管理和命名空间、统一的多组合和权限控制、统一的元数据管理、统一的基于策略驱动的冷热自动分层、统一的在线数据去重压缩功能、统一的数据快照、复制功能。

并且,Dell PowerScale还提供了多协议支持,可以满足人工智能中不同数据源和应用程序的需求,同时简化了数据的管理、提升了存储的效率并降低了运维的成本。

挑战三,存储安全要保证

AI存储选型的第三大挑战是存储需要安全可靠,能提供对关键数据资产的安全可靠保护。

在AI场景下,有几类数据资产是非常宝贵的:

●高成本的训练数据

●长周期训练的Checkpoint

●高价值的AI模型成果

Dell PowerScale在保护数据安全方面具备多种特性:首先,PowerScale提供了内置的安全功能,包括数据加密、访问控制和安全审计等。这些功能可以保护数据免受未经授权的访问和泄露,确保数据的机密性和完整性。

其次,PowerScale还具备强大的容灾和恢复能力。它可以通过快照和克隆等技术,实现数据的快速备份和恢复。同时,PowerScale还支持远程复制和同步,可以在不同地理位置之间实现数据备份和容灾,确保数据的安全性和可用性。此外,PowerScale还提供了多租户功能,可以实现不同租户之间的数据隔离和安全控制,以满足多用户环境下对数据安全性和隔离性的需求。

最后,PowerScale还支持安全协议和标准,如SSL/TLS等,可以与各种应用程序和系统无缝集成,确保数据的安全性和可靠性。

图片

除了传统的数据安全保护机制外,针对时下非常疯狂的勒索病毒攻击,Dell PowerScale也提供数据避风港保护方案来防护人工智能数据。

总结来看,Dell PowerScale存储在人工智能中可以发挥关键作用,尤其是在处理大规模非结构化数据和提高AI工作负载效率方面,PowerScale具备以下六大优势:

1、处理非结构化数据:随着数据量的爆炸性增长,其中大部分数据为非结构化数据。PowerScale存储系统专为处理这类数据而设计,能够有效地管理和存储大量的非结构化数据。

2、提升AI工作负载效率:PowerScale存储系统具有低延迟、高吞吐量和大规模并行I/O的特点,这些特性使其成为GPU加速计算的理想补充,能够有效压缩针对多PB数据集训练和测试分析模型所需的时间。

3、支持AI工作负载:戴尔科技集团致力于消除数据访问瓶颈,提供快速、高效且安全的数据访问技术,使得PowerScale成为适用于一般AI工作负载的存储优化型产品。

4、性能提升:基于最新一代PowerEdge服务器打造的新款PowerScale全闪存存储系统,将流式读取与写入性能提升达到2倍,这对于需要高速数据处理的AI应用来说是一个重要的优势。

5、满足人工智能中不同数据源和应用程序的需求:PowerScale支持多种文件协议、对象访问协议和大数据访问协议,可以与不同的操作系统和编程语言进行无缝集成,从而方便了不同用户对数据的使用和管理。

6、出色的数据安全性和可靠性:由于人工智能的数据涉及到许多敏感信息和隐私,因此需要保证数据的安全性和可靠性。PowerScale采用了多种加密和安全措施以及勒索病毒防护解决方案,可以确保数据的安全性和隐私保护。同时,PowerScale还具备高可用性和容错能力,可以保证数据的可靠性和稳定性。

综上所述,Dell PowerScale存储系统通过其高性能、高效率和专为AI优化的设计,能够在人工智能领域中发挥重要作用,帮助企业和研究机构更好地存储、管理和分析大量数据,推动AI技术的发展和应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/363690.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STL标准模版在VS2019中的使用方法

STL标准模版在VS2019中的使用方法 1.STL在VS2019中的位置 1.STL在VS2019中的位置 1.1找到程序安装位置: D:\visual_studio\IDE\VC\Tools\MSVC\14.29.30133\include

重发布

一:作用 在两种路由协议之间,或者一个协议的不同进程之间,借助ASBR (同时工作在两种协议或 者协 议的不同进程中)学习到两个网络的路由信息,并且通过重发布进行路由共享,最终实现全网可 达。…

车载电子电器架构 —— IP地址获取策略

车载电子电器架构 —— IP地址获取策略 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自…

[网络安全 渗透实验 01]基于MSF框架渗透攻击Win7主机系统的设计与实现

基于MSF框架渗透攻击Win7主机系统的设计与实现 文章目录 基于MSF框架渗透攻击Win7主机系统的设计与实现[Warning] 写在前面1. 实验要求2. 实验环境搭建2.1 攻击机(Linux kali)的下载与安装2.2 靶机(Windows 7 Enterprise with Service Pack 1…

旷视low-level系列(二):Practical Deep Raw Image Denoising on Mobile Devices

论文:ECCV 2020 代码:https://github.com/MegEngine/PMRID 文章目录 1. Motivation2. Contribution3. Methods3.1 噪声建模&参数估计3.2 k-Sigma变换3.3 移动端友好的网络结构 4. Experiments5. Comments 1. Motivation 业内周知,基于深…

Kotlin快速入门系列4

Kotlin的类与对象 类的定义 Kotlin使用关键字class来声明类。后面紧跟类名字: class LearnKotlin { //类名:LearnKotlin//... } Kotlin的类可以包含:构造函数和初始化代码块、函数、属性、内部类、对象声明。当然,也可以定义一…

vue实现查询搜索框下拉字典

字典表 前端页面显示 依据这个字典表实现动态查询 初始化数组 首先先在全局变量里定义一个数据存放查询出来的数据 data() {return {dicts: []};},生命周期 查询的时候是声明周期开始的时候,原本增删改查页面在生命周期开始的时候就查询了页面的数据获得了列表值…

IEEE| IceNet《IceNet for Interactive Contrast Enhancement》论文超详细解读(翻译+精读)

学习资料: 论文题目:《IceNet for Interactive Contrast Enhancement》(用于交互式对比度增强的IceNet)原文地址:export.arxiv.org/pdf/2109.05838v2.pdf 目录 ABSTRACT—摘要 翻译 精读 I. INTRODUCTION—简介 翻…

Thinkphp5.0.23远程代码执行漏洞复现

★★免责声明★★ 文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与学习之用,读者将信息做其他用途,由Ta承担全部法律及连带责任,文章作者不承担任何法律及连带责任。 1、漏洞介绍 使用Thinkphp5.x远程代码执行漏洞&#xf…

26元/月起!腾讯云自动搭建4核16G雾锁王国服务器

腾讯云无需任何配置自动搭建雾锁王国4-8人联机服务器,游戏24小时在线,4核16G服务器低至26元/月起,一键搭建自己的雾锁王国联机服务器! 第一步:购买服务器 1、通过【腾讯云游戏服专属优惠】页面,选择“雾锁…

关于v8垃圾回收机制以及与其相关联的知识点--还没整理版本

对于值类型b来说,就直接释放了其占用的内存,对于引用类型obj来说,销毁的只是变量obj对堆内存地址 1001 的引用,obj的值 { c: 3 } 依然存在于堆内存中。那么堆内存中的变量如何进行回收呢? V8的垃圾回收策略主要是基于…

YOLOv5改进系列(29)——添加DilateFormer(MSDA)注意力机制(中科院一区顶刊|即插即用的多尺度全局注意力机制)

【YOLOv5改进系列】前期回顾: YOLOv5改进系列(0)——重要性能指标与训练结果评价及分析 YOLOv5改进系列(1)——添加SE注意力机制 YOLOv5改进系列(2)——添加CBAM注意力机制 YOLOv5改进系列&…

Duplicate entry ‘2020045-2-1‘ for key ‘index_uid‘ 解决方案

项目场景: 今天小编在工作中编写接口对数据库增加相同的非主键数据的时候,突然出现了这样的一个错误: 下面我来给大家解答这个错误的出现原因以及解决办法。 问题描述 Duplicate entry 2020045-2-1 for key index_uid 这个错误大概意思就是…

Vue3-Composition-API(二)

一、computed函数使用 1.computed 在前面我们讲解过计算属性computed:当我们的某些属性是依赖其他状态时,我们可以使用计算属性来处理 在前面的Options API中,我们是使用computed选项来完成的; 在Composition API中&#xff0c…

Spring实现事务(一)

Spring事务 .什么是事务事务的操作Spring中事务的实现准备工作创建表创建项目,引入Spring Web, Mybatis, mysql等依赖配置文件实体类 编程式事务(手动写代码操作事务)声明式事务(利用注解自动开启和提交事务) . 什么是事务 事务是⼀组操作的集合, 是⼀个不可分割的操作 在我们…

基于布谷鸟搜索的多目标优化matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 1. 布谷鸟搜索算法基础 2. 多目标优化问题 3. 基于布谷鸟搜索的多目标优化算法 4. 解的存储和选择策略 5.算法步骤 5.完整程序 1.程序功能描述 基于布谷鸟搜索的多目标优化,…

JavaScript基础(二)—— 运算符、表达式与语句(if、switch、循环)

学习目标: 掌握常见运算符,为程序“能思考”做准备 掌握分支语句,让程序具备判断能力 掌握循环语句,让程序具备重复执行能力 一、运算符 1. 赋值运算符 对变量进行赋值的运算符,能够使用赋值运算符简化代码。 …

【解决视网膜长尾数据】关系子集学习、射击法、加权知识蒸馏

长尾分布下的视网膜:关系子集学习、射击法、加权知识蒸馏 核心思想问题:类别分布的不平衡问题问题:共现标签问题:特定区域和特征的类别关联解法:划分子集解决样本不平衡问题解法:射击法解决共现标签问题解法…

【缓存周总结】Redis缓存的使用以及数据安全的处理

前言 Redis非关系型数据库已经是很常见的工具了,项目中用到的也很多,这篇文章系统的分析下使用过程中可能会遇到的问题 一、缓存 缓存是数据交换的缓冲区,是存贮数据的临时地方,一般读写性能较高。 我们项目中引用的Redis目的就是…

Unity - 调节camera物理相机参数(HDRP)

在 “Hierarchy” 右键 -> Volume -> Global Volume new 一个 profile, 设置Mode为Pysical Camera 再点击camera组件,这时候设置 ISO、Shutter Speed、Aperture等参数值还会有效。