科技云报道:算力之战,英伟达再度释放AI“炸弹”

科技云报道原创。

近日,在计算机图形学顶会SIGGRAPH 2023现场,英伟达再度释放深夜“炸弹”,大模型专用芯片迎来升级版本。

英伟达在会上发布了新一代GH200 Grace Hopper平台,该平台依托于搭载全球首款搭载HBM3e处理器的新型Grace Hopper超级芯片——GH200,专为处理大语言模型、推荐系统、矢量数据库等全球最复杂的生成式AI工作负载而构建。

据悉,GH200芯片将成为世界上第一个配备HBM3e(High Bandwidth Memory 3e)内存的GPU芯片。

与当前一代产品相比,最新版本的GH200超级芯片内存容量增加了3.5倍,带宽增加了3倍;相比最热门的H100芯片,其内存增加1.7倍,传输频宽增加1.5倍。

在当前生成式AI不断激增的需求下,GH200超级芯片的推出,进一步吹响了AI算力之战的号角。

性能更高的GH200芯片

据介绍,GH200 Grace Hopper平台的HBM3e内存比当前HBM3快50%,可提供总计10TB/s的带宽。这使得新平台能够运行比上一版本大3.5倍的模型,同时凭借快3倍的内存带宽提升性能。

同时,该平台采用双配置,包括一个拥有144个Arm Neoverse内核、8 petaflops的AI性能和282GB最新HBM3e内存技术的单个服务器。

英伟达创始人兼首席执行官黄仁勋表示:“为了满足对生成式 AI不断激增的需求,数据中心需要能够满足特定需求的加速计算平台。全新GH200 Grace Hopper超级芯片平台以出色的内存技术和带宽,提高了吞吐量,在不影响性能的情况下可连接多GPU以整合性能,并且具有可以轻松部署到整个数据中心的服务器设计。”

据英伟达公布信息,新平台可以通过 NVIDIA NVLink™ 与其他超级芯片连接,使它们能够协同工作,从而部署当下大型生成式AI模型。这种高速、一致性技术使GPU可以完全访问CPU 内存,在双配置中可提供总计1.2TB的快速内存。
在这里插入图片描述

值得注意的是,新平台采用的新款超级芯片GH200与此前发布的H100相比,二者使用同样的GPU,但GH200将同时配备高达141G的内存和72核ARM中央处理器,每秒5TB带宽,内存增加了1.7倍,带宽增加了1.5倍。

新平台和芯片的加持,也让大模型训练的成本得到有效降低。黄仁勋表示,一台服务器可以同时装载两个GH200超级芯片,大型语言模型的推理成本将会大幅降低。

据介绍,投资800万美元Grace Hopper,就相当于8800个价值1亿美元的x86 GPU,意味着成本降低12倍,能耗降低20倍。

英伟达称,GH200已于5月全面投产,基于GH200 Grace Hopper平台的新系统将于2024年第二季度交付。

不过一个关键的问题是,英伟达没有透露超级芯片GH200的价格,这对计算成本高昂的大模型来说尤为重要,H100系列目前售价约为4万美元。

为什么内存对大模型重要?

事实上,GH200超级芯片本身并不是一个新产品,而是今年5月在中国台北Computex展上发布的GH200芯片的更新版。

英伟达超大规模和高性能计算副总裁兼总经理伊恩·巴克(Ian Buck)表示:“我们对这款新的GH200感到非常兴奋。HBM3e不仅增加了GPU的容量和内存量,而且速度也更快。”

但为什么GPU内存这么重要?

这是因为随着支撑生成式人工智能应用程序的基础AI模型尺寸的增加,为了能够在不连接独立芯片和系统的情况下运行,大模型需要更大的内存量,以避免性能下降。

拥有更大的内存允许模型保留在单个GPU上,并且不需要多个系统或多个GPU来运行,而额外的内存只会提高 GPU的性能。

目前即使使用英伟达最顶级的H100芯片,有些模型也必须在其他GPU中“分解”模型才能运行。

据英伟达介绍,最新版本GH200配备141GB的HBM3e内存,旨在处理“世界上最复杂的生成式人工智能工作负载,涵盖大型语言模型、推荐系统和矢量数据库”。

对AI领域的影响

英伟达的GH200超级芯片和DGX GH200超级计算机是AI领域的重大突破,它们为大规模生成式AI工作负载提供了前所未有的性能和内存空间,使得训练千亿甚至万亿参数的巨型模型成为可能。

这些模型可以在自然语言处理、计算机视觉、推荐系统、图形分析等领域实现更高的精度和效率,为人类解决更复杂的问题提供了强大的工具。

在多位AI从业者看来,当前大模型的训练需求过于迫切,对性能的要求也很高,而GPU的适配和生态转移都需要很长时间,因此目前大家都优先选择英伟达,和其他厂商的测试验证也在进行中。

一场新的算力之战已经拉开帷幕,如果说算力是一个江湖,那么此刻英伟达就是一名绝世高手。

它身怀加速计算的绝技,尤其在AI战场上一骑绝尘,似乎每一次都能精准地踏在浪潮的节奏上。从游戏PC市场、到深度学习的崛起、到云计算的普及、再到生成式AI的降临,英伟达的技术所向披靡。

回头看,英伟达早已超越了GPU本身的概念,AI成为最大的标签,算力的绝世武功撑起了新的万亿帝国。

2022年,英伟达推出了多款重磅产品,分别是基于全新Hopper架构的H100 GPU、CPU和GPU的合体Grace Hopper、两个CPU组合的Grace CPU Superchip,CPU的产品在2023年上市。

其中,设计GPU新架构Hopper时,英伟达增添了一个Transformer引擎,专门为Transformer算法做了硬件优化,加快AI计算的效率。

一位国内芯片从业者直言:“H100出来,其实就是一个新时代了,Grace-Hopper再一个组合,加上高配的互联,完全不给活路,英伟达赢家通吃,AMD、Intel继续苦追。”

同时他也表示:“目前国内一些企业还是在盯着CNN做优化,英伟达已经有Transformer引擎,然后AIGC火热,恰好能做支持。这个眼光,只能佩服他们的科学家们对这个领域深刻的认识。”

一位学术界人士也分析道:“从H100上,包括专用的Transformer引擎以及对FP8格式的支持,可以看到计算硬件在向应用定制的方向前进。Grace CPU说明了整合异构计算系统的重要性。单纯的加速器优化和设计已经不能够满足现在对于计算系统的算力和能效比的要求,需要各个部分的协同优化和设计。”

他还表示,Grace CPU通过提高通信带宽和在CPU和GPU之间建立一致(coherent)的内存模型来解决运算中的瓶颈,这也和学界(近存计算,存内计算)与业界(CXL,CCI等等系统互联协议)一直在关注的方向是一致的。

总而言之,在GPU和CPU的各种排列组合中,英伟达又将算力提升到了新高度。正如黄仁勋所言:“我们正在重新发明计算机,加速计算和人工智能标志着计算正在被重新定义。”

黄仁勋在采访中还提到,数据中心需要用的CPU越来越少,不再是传统上购买数百万个CPU,而是转而购买数百万个GPU。换言之,在他看来,AI算力江湖已经是GPU的主场。

英伟达的野心

事实上,随着ChatGPT引发AI大模型需求热潮,作为加速计算领导者,英伟达今年以来股价累计涨幅已超过210%,近三个月内涨幅就达56%,过去7年股价增长超40倍,目前市值冲破1.1万亿美元。

公开数据显示,英伟达占据全球80%以上的GPU服务器市场份额,同时拥有全球91.4%的企业GPU市场份额。

据投资者服务公司穆迪今年5月份发布的一份研究报告,英伟达在未来几个季度将实现“无与伦比”的收入增长,其数据中心业务的收入将超过竞争对手英特尔和AMD的总和。

但摩根士丹利策略分析师斯坦利(Edward Stanley)在最新报告中称,根据历史背景,英伟达的股价飙升处于“后期”阶段,摩根士丹利认为这标志着 AI 行业的“泡沫”。

GPU持续紧缺下,如今英伟达产品价格已同比上涨超30%,英伟达A800单卡现货近13万元一颗,eBay上H100售价高达4.5万美元。

同时,OpenAI的GPT-4大模型需要至少2.5万张英伟达A100 GPU芯片,而该公司目前至少已拥有1000万颗GPU芯片。

正如黄仁勋常说的,“你GPU买得越多,你越省钱”。主要原因是新的GPU产品能显著提升加速计算,比CPU性能更强、算力更大、功耗更低。

但英伟达的布局还不止于此。

一个现实问题是,高性能的算力也意味着高昂的价格。大模型训练成本动辄成千上百万美元,并不是所有公司都能承受。

而英伟达同时提出了云服务的解决方案NVIDIA AI foundations,黄仁勋表示要做“AI界的台积电”。台积电大大降低了芯片设计公司生产门槛,英伟达也要做代工厂的角色,通过和大模型厂商、云厂商合作提供高性价比的云服务。

在帮助下游企业降低大模型训练成本的同时,英伟达还在逐步参与到上游的产业链升级中。今年,英伟达牵手台积电、ASML、新思,发布了计算光刻库cuLitho。

计算光刻是在芯片设计和制造领域的关键步骤,也是最大的计算负载之一。计算光刻库的技术突破就在于,可以通过部署有大量GPU的DGX AI计算系统对计算光刻进行加速,使其达到原有的基于CPU的计算速度的几十倍,同时降低计算过程的总能耗。

这将有助于晶圆厂缩短原型周期时间、提高产量、减少碳排放,为2nm及更先进的工艺奠定基础,并为曲线掩模、高数值孔径极紫外、亚原子级光刻胶模型等新技术节点所需的新型解决方案和创新技术提供更多可能性。

在多位产业界人士看来,虽然短期内不会影响到下游的应用方面,但是这些上游的研发和升级将长期影响产业的发展,累积形成代际差。

“英伟达在GPU架构的迭代上,一直都有属于自己的发展路径,这几年的发展,也让英伟达跃居AI算力芯片领域的领导者,也因为领先,所以英伟达会思考如何做更多元的布局与行业内的深度合作,这样更能了解行业的需求,比方和台积电等合作便是很好的例子”,某芯片行业专家表示。

当然,英特尔和AMD都已经吹响反攻的号角。

7月,英特尔面向中国市场推出了AI芯片Habana Gaudi 2;6月,AMD推出AI芯片Instinct MI 300X,两者都直接对标英伟达100系列。

目前,在数据中心市场,英伟达和Intel、AMD形成三足鼎立之势。但随着GH200的正式发布,Grace CPU正式登台争角,最应该感到如芒在背的应该是Intel、AMD。虽说大家都知道GH200迟早发布,但等真正发布了,还是有所触动。

围绕着算力的权力游戏还将继续。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/80335.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

优于立方复杂度的 Rust 中矩阵乘法

优于立方复杂度的 Rust 中矩阵乘法 迈克克维特 跟随 发表于 更好的编程 6 分钟阅读 7月 <> 143 中途&#xff1a;三次矩阵乘法 一、说明 几年前&#xff0c;我在 C 年编写了 Strassen 矩阵乘法算法的实现&#xff0c;最近在 Rust 中重新实现了它&#xff0c;因为我继续…

16、可重入锁+设计模式

可重入锁设计模式 while判断并自旋重试获取锁setnx含自然过期时间Lua脚本官网删除锁命令但不能保证可重如 问题&#xff0c;如何兼顾锁的可重入性问题&#xff1f; 可重入锁 可重入锁又名递归锁 是指在同一个线程在外层方法获取锁的时候&#xff0c;再进入该线程的内层方法…

【JVM】对String::intern()方法深入详解(JDK7及以上)

文章目录 1、什么是intern&#xff1f;2、经典例题解释例1例2例3 1、什么是intern&#xff1f; String::intern()是一个本地方法&#xff0c;它的作用是如果字符串常量池中已经包含一个等于此String对象的字符串&#xff0c;则返回代表池中这个字符串的String对象的引用&#…

Unable to find resource t64.exe in package pip._vendor.distlib报错问题解决

Unable to find resource t64.exe in package pip._vendor.distlib报错问题解决 问题报错具体内容具体解决方案解决方法一解决方法二 问题报错具体内容 想要对python的版本进行一个升级,使用如下语句 python -m pip install --upgrade pip出现如下报错 Unable to find reso…

OpenZFS 2.2 发布 RC3,支持 Linux 6.4

导读之前的 OpenZFS 2.2 候选版本已致力于实现与 Linux 6.4 内核的兼容性&#xff0c;而在 2.2-rc3 中&#xff0c;Linux 6.4 支持的元跟踪器已标记为已完成。 OpenZFS 2.2 发布了第 3 个 RC 版本。 之前的 OpenZFS 2.2 候选版本已致力于实现与 Linux 6.4 内核的兼容性&#x…

深入理解内存 —— 函数栈帧的创建与销毁

前言 一位优秀的程序员&#xff0c;必须对内存的分布有深刻的理解&#xff0c;在初学编程的时候&#xff0c;往往有诸如以下很多问题困扰着初学者&#xff0c;而通过今天的分享&#xff0c;我们就可以通过自己的观察&#xff0c;将这些问题统统解决掉 局部变量是怎么创建的&…

Python Opencv实践 - 图像仿射变换

import cv2 as cv import numpy as np import matplotlib.pyplot as pltimg cv.imread("../SampleImages/pomeranian.png", cv.IMREAD_COLOR) rows,cols img.shape[:2] print(img.shape[:2])#使用getAffineTransform来获得仿射变换的矩阵M #cv.getAffineTransform(…

Microsoft ISA服务器配置及日志分析

Microsoft ISA 分析器工具&#xff0c;可分析 Microsoft ISA 服务器&#xff08;或 Forefront 威胁管理网关服务器&#xff09;的日志并生成安全和流量报告。支持来自 Microsoft ISA 服务器组件的以下日志&#xff1a; 数据包过滤器ISA 服务器防火墙服务ISA 服务器网络代理服务…

图片合成动图怎么弄?gif图制作的简单方法

许多鬼畜的表情包其实是用图片合成gif完成的&#xff0c;那么怎么将图片转gif呢&#xff1f;使用GIF中文网的gif合成&#xff08;https://www.gif.cn&#xff09;功能&#xff0c;打开浏览器就可以完成gif图片制作&#xff0c;非常简单方便&#xff0c;一起来了解一下吧。 打开…

智安网络|深入比较:Sass系统与源码系统的差异及选择指南

随着前端开发的快速发展&#xff0c;开发人员需要使用更高效和灵活的工具来处理样式表。在这个领域&#xff0c;Sass系统和源码系统是两个备受关注的选项。 Sass系统 Sass&#xff08;Syntactically Awesome Style Sheets&#xff09;是一种CSS预处理器&#xff0c;它扩展了CS…

Lnton羚通关于【PyTorch】教程:torchvision 目标检测微调

torchvision 目标检测微调 本教程将使用Penn-Fudan Database for Pedestrian Detection and Segmentation 微调 预训练的Mask R-CNN 模型。 它包含 170 张图片&#xff0c;345 个行人实例。 定义数据集 用于训练目标检测、实例分割和人物关键点检测的参考脚本允许轻松支持添加…

Modbus工业RFID设备在自动化生产线中的应用

传统半自动化生产线在运作的过程&#xff0c;因为技工的熟练程度&#xff0c;专业素养的不同&#xff0c;在制造过程中过多的人为干预&#xff0c;工厂将很难对每条生产线的产能进行标准化管理和优化。如果半自动化生产线系统是通过前道工序的作业结果和检测结果来决定产品在下…

实战指南,SpringBoot + Mybatis 如何对接多数据源

系列文章目录 MyBatis缓存原理 Mybatis plugin 的使用及原理 MyBatisSpringboot 启动到SQL执行全流程 数据库操作不再困难&#xff0c;MyBatis动态Sql标签解析 从零开始&#xff0c;手把手教你搭建Spring Boot后台工程并说明 Spring框架与SpringBoot的关联与区别 Spring监听器…

C语言好题解析(三)

目录 选择题一选择题二选择题三选择题四编程题一编程题二 选择题一 以下程序段的输出结果是&#xff08;&#xff09;#include<stdio.h> int main() { char s[] "\\123456\123456\t"; printf("%d\n", strlen(s)); return 0; }A: 12 B: 13 …

高并发内存池(centralcache)[2]

Central cache threadcache是每个线程独享&#xff0c;而centralcache是多线程共享&#xff0c;需要加锁&#xff08;桶锁&#xff09;一个桶一个锁 解决外碎片问题&#xff1a;内碎片&#xff1a;申请大小超过实际大小&#xff1b;外碎片&#xff1a;空间碎片不连续&#x…

redis 发布和订阅

目录 一、简介 二、常用命令 三、示例 一、简介 Redis 发布订阅 (pub/sub) 是一种消息通信模式&#xff1a;发送者 (pub) 发送消息&#xff0c;订阅者 (sub) 接收消息。Redis 客户端可以订阅任意数量的频道。下图展示了频道 channel1 &#xff0c;以及订阅这个频道的三个客户…

53.Linux day03 文件查看命令,vi/vim常用命令

今天进行了新的学习。 目录 1.cat a.查看单个文件的内容&#xff1a; b.查看多个文件的内容&#xff1a; c.将多个文件的内容连接并输出到一个新文件&#xff1a; d.显示带有行号的文件内容&#xff1a; 2.more 3.less 4.head 5.tail 6.命令模式 7.插入模式 8.图…

Nginx反向代理技巧

跨域 作为一个前端开发者来说不可避免的问题就是跨域&#xff0c;那什么是跨域呢&#xff1f; 跨域&#xff1a;指的是浏览器不能执行其他网站的脚本。它是由浏览器的同源策略造成的&#xff0c;是浏览器对javascript施加的安全限制。浏览器的同源策略是指协议&#xff0c;域名…

SQL Server Express 自动备份方案

文章目录 SQL Server Express 自动备份方案前言方案原理SQL Server Express 自动备份1.创建存储过程2.设定计划任务3.结果检查sqlcmd 参数说明SQL Server Express 自动备份方案 前言 对于许多小型企业和个人开发者来说,SQL Server Express是一个经济实惠且强大的数据库解决方…

机器学习基础之《分类算法(1)—sklearn转换器和估计器》

一、转换器 1、什么是转换器 之前做特征工程的步骤&#xff1a; &#xff08;1&#xff09;第一步就是实例化了一个转换器类&#xff08;Transformer&#xff09; &#xff08;2&#xff09;第二步就是调用fit_transform&#xff0c;进行数据的转换 2、我们把特征工程的接口称…