浅淡A100-4090-性价比

大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能比 H100 稍高。4090 如果极致优化,性价比甚至可以达到 H100 的 2 倍。

--------------------

  1. FP64(双精度浮点)性能: 这是区分游戏卡和计算卡的关键因素之一。在科学计算和某些高精度要求的AI应用中,FP64的性能非常重要。游戏显卡(如RTX 4090)通常在这一点上性能较弱,因为游戏通常不需要双精度计算。
  2. 关于A100/H100的不同版本: 您正确指出,这些GPU存在不同的版本,具有不同的内存容量(如96GB, 80GB, 40GB等)。这些不同的版本对于特定的应用场景(如大模型训练和推理)意味着不同的性能和适用性。
  3. BF16和FP16: BFloat16(BF16)是一种浮点格式,它在AI计算中越来越流行,因为它在精度和性能之间提供了一个良好的平衡。而FP16(半精度)则是另一种常见的低精度浮点格式。这两种格式在AI应用中都很重要,尤其是在模型训练中。
  4. FP32和FP16性能: 根据您提供的数据,RTX 4090在FP16和FP32上的性能相同,都是82.58 Tflops,而其FP64性能则显著较低。这表明它更适合于不需要高精度计算的应用。而H100在FP16上的性能为248.3 Tflops,在FP32上为62 Tflops,FP64性能为31.04 Tflops,这显示了它在更高精度计算上的优势。
  5. RTX 4090与A100的FP16性能比较:
    • 根据之前的讨论,RTX 4090的FP16性能约为82.58 Tflops,而A100的FP16性能可达约312 Tflops。不过,您引用的评论者“王一”提到,实际使用中4090的FP16性能接近于A100。这可能是因为不同的测试条件和使用场景会影响性能测量,或者由于不同的硬件版本和配置。
    • 从理论规格上看,A100确实在FP16上显示出更高的性能,但实际应用性能可能会有所不同,取决于具体任务和软件优化。
  6. 大型机房环境下的成本考虑:
    • 评论者“Crear”提到的成本分析观点非常重要。在评估GPU在数据中心的总成本时,不能仅仅考虑硬件和电费。还需要考虑机房空间、冷却系统、维护成本、硬件的可靠性和寿命等因素。
    • 例如,尽管A100/H100的硬件成本可能更高,但它们可能在机房空间利用效率、耗电效率、维护需求和稳定性方面具有优势。这些因素在大规模部署时尤其重要。
    • 交换机和存储成本也是重要的考虑因素,特别是在涉及到高速网络通信和大数据量存储的AI应用中

以上这些信息对于理解不同GPU的性能特点和适用场景至关重要。再次感谢您提供这些详细且关键的技术数据。在讨论GPU性能时,确保数据的准确性非常重要,尤其是在为特定的计算任务选择合适的硬件时。

------------------------------

其实 GPT-3.5 Turbo 的 $0.002 / 1K tokens 真的挺良心的,有的卖 API 的,LLaMA-2 70B 都敢比 GPT-3.5 Turbo 卖得贵。

如果换成用 H100 做推理,重新算一下这笔账。一张 H100 至少要 3 万美金,一台 8 卡 H100 高配服务器加上配套的 IB 网络,起码要 30 万美金,同样按照 3 年摊销,每小时 11.4 美元。10 kW 功耗,电费每小时 1 美元。一个普通供电和散热的机架只能放 2 台 8 卡 H100,机柜租用成本(不含电费)还按 1500 美元算,合每小时 1 美元。一共 13.4 美元一小时。

论文 ["Reducing Activation Recomputation" ](2205.05198.pdf (arxiv.org))中,计算过程涉及的公式 "token 长度 \* batch size \* hidden layer 的神经元数量 \* 层数 \* (10 + 24/张量并行度)" 是用来估算正向传播过程中需要的内存空间。

这个公式的每部分代表的含义是:

  • token 长度:这是输入序列中的token的数量。
  • batch size:这是在单次训练/推理过程中同时处理的数据样本数量。
  • hidden layer 的神经元数量:这是每个隐藏层中神经元的数量。
  • 层数:这是神经网络中的层数。
  • (10 + 24/张量并行度):这部分是公式中比较复杂的部分,它代表每个神经元为正向传播存储中间状态所需的字节数。

特别是,"(10 + 24/张量并行度)" 这部分可能是指:

  • 10字节:可能是估算每个神经元基础内存需求的经验值。这可能包括神经元的激活值和其他必要的辅助信息。
  • 24/张量并行度:这表明当使用张量并行时,每个神经元的内存需求会减少。张量并行会将模型的一部分分配到多个处理单元(如GPU)上,因此每个单元只需存储一部分模型的中间状态。这里的“24”可能是一个针对特定模型或层类型的估算值,表明在没有张量并行的情况下每个神经元需要额外的24字节。随着张量并行度的增加,每个处理单元需要的额外存储量会减少。

这个公式提供了一个估算正向传播中内存需求的方法,特别是在大型模型和复杂网络结构中非常有用。不过,具体的数字可能会根据模型的结构和实现方式有所不同。


公式 "token 长度 * batch size * hidden layer 的神经元数量 * 层数 * (10 + 24/张量并行度)" 用于估算深度学习模型在正向传播过程中对内存的需求。这个计算结果代表正向传播中需要为存储中间状态(activations)分配的总内存量。

让我们通过一个假设的示例来演示这个公式的计算结果。假设我们有以下参数:

  • Token 长度: 512
  • Batch size: 8
  • Hidden layer 的神经元数量: 2048(这是一个典型的隐藏层大小)
  • 层数: 12(例如,一个较小的Transformer模型)
  • 张量并行度: 1(假设没有使用张量并行)

代入公式,计算过程如下:

内存需求 = token 长度 * batch size * hidden layer 的神经元数量 * 层数 * (10 + 24/张量并行度)

= 512 * 8 * 2048 * 12 * (10 + 24/1)

= 512 * 8 * 2048 * 12 * 34

= 1073741824 字节

= 1024 MB

= 1 GB

因此,根据这个公式和给定的假设参数,模型的正向传播过程大约需要1GB的内存来存储中间状态。这个计算结果可以帮助我们了解特定配置的深度学习模型在训练时对硬件资源的需求。实际应用中,这个数值可能会有所不同,具体取决于模型的具体结构和实现方式

当然 还有这些信息可以参考[URL](https://xba0xp0y90.feishu.cn/sheets/NMVls7iMGhfyDGt7zpecOzDdnSd?from=from_copylink):

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/308841.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

pycharm社区版配置flask开发环境

新建配置文件,类型选择Shell Script 设置Execute中flask.exe的路径 设置options :--appflask_app.py run --port5000 --debug 设置working 路径 设置环境变量FLASK_APPflask_app.py;FLASK_ENVdevelopment 注意:FLASK_APPflask_app.py和上…

automa插件使用的一些经验

automa,我承认我写不出来这样的代码,早年的时候公司想过做一个爬虫的工具,那个时候RPA还没有火,虽然下载也没怎么火.RPA再牛,还是需要工程师,想一点经验都没有人来做,还是理解不了。能够简化数据…

Java接口的解析

在 Java 中,接口(Interface)是一种抽象类型,用于定义一组相关方法的契约。接口只包含方法的签名,而没有方法的实现。实现接口的类必须提供接口中定义的方法的具体实现。 以下是对 Java 接口的解析: 这只是…

【uniapp】遇到的一些问题

一、小程序中textarea ios样式不生效的方法 默认有内边距,加个disable-default-padding"true" 二、uni-data-picker循环使用,一个改了全局的值 换成了uni自带的picker,下面括号里必须有默认值,为空字符串的时候&…

国产AI工具钉钉AI助理:开启个性化助手服务的新篇章

钉钉AI助理是钉钉平台的一项功能,它可以根据用户的需求提供个性化的AI助手服务。用户可以在AI助理页面一键创建个性化的AI助理,如个人的工作AI助理、旅游AI助理、资讯AI助理等。企业也可以充分使用企业所沉淀的知识库和业务数据,在获得授权后…

Python实现PDF—>Excel的自动批量转换(附完整代码)

Python实现PDF—>Excel的自动批量转换(附完整代码) 话不多说,先看效果! 需要转换的PDF: 转换后的Excel: 01、底层原理 PDF 到 Excel 的转换涉及不同文件格式之间的数据提取和重构。底层原理可以简…

【GDAL】Windows下VS+GDAL开发环境搭建

Step.0 环境说明(vs版本,CMake版本) 本地的IDE环境是vs2022,安装的CMake版本是3.25.1。 Step.1 下载GDAL和依赖的组件 编译gdal之前需要安装gdal依赖的组件,gdal所依赖的组件可以在官网文档找到,可以根据…

白嫖aws创建Joplin server服务器

网上有很多的Joplin服务器的搭建教程,但是基本都是抄来抄去,对初学者实在是太不友好了。 话不多说,说干就干,自己从头找资料搭了一个,这可能是全网最好的Joplin服务器搭建教程了。 aws服务器 aws的服务器还是很香的&…

idea git回滚之前提交记录

提交代码时,如果不小心提交了不需要提交的内容,在本地仓库中,此时需要回滚版本,如何回滚 1.打开git控制台,左下角git,选择要处理的分支,选择刷新获取最新git提交记录 2)选中自己commit需要回滚…

Fluids —— Minimal fluid setups

目录 Waterline FLIP Boundary Boundary flow 创建流体设置的三个基本方法; Waterline 由FLIP Container SOP与FLIP Solver SOP组成的基本network,可不需要任何外部源; FLIP Container SOP,能使用不同的容器形状;F…

PiflowX-MysqlCdc组件

MysqlCdc组件 组件说明 MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。 计算引擎 flink 组件分组 cdc 端口 Inport:默认端口 outport:默认端口 组件属性 名称展示名称默认值允许值是否必填描述例子hostnameHostname“”无是MySQL…

MySql -数据库基本概念

一、数据库的基本概念 1.为什么要学数据库? 之前我们如果想将一些数据实现永久化存储,可以怎么做呢?没错。使用IO流的技术将数据保存到本地文件中但是接下来我有这样一个需求:将下面的user.txt文件中的王五年龄修改为35 张三 2…

leetcode 动态规划(最后一块石头的重量II、目标和、一和零)

1049.最后一块石头的重量II 力扣题目链接(opens new window) 题目难度&#xff1a;中等 有一堆石头&#xff0c;每块石头的重量都是正整数。 每一回合&#xff0c;从中选出任意两块石头&#xff0c;然后将它们一起粉碎。假设石头的重量分别为 x 和 y&#xff0c;且 x < …

Go语言学习笔记(三)

教程&#xff1a;文档 - Go 编程语言 (studygolang.com) 调用模块代码 在call-module-code需要注意&#xff0c;需要在hello目录下操作 go mod edit -replace example.com/greetings../greetings 这是一个在Go项目的模块管理中的命令。在Go的模块管理工具&#xff08;go mod&…

SpringBoot-admin健康监控

监控-健康监控服务 目的&#xff1a;能够理解健康监控actuator的作用 背景&#xff1a; 在一些大型的业务应用中&#xff0c;工程会根据业务模块做微服务拆分&#xff0c;后期每一个微服务在云上部署以后&#xff0c;都需要对其进行监控、追踪、审计、控制等操纵&#xff0c…

chatglm3的api调用

conda activate chatglm3 cd openai_api_demo python openai_api.py 启动ok&#xff0c;然后内网映射后 anaconda启动jupyter !pip install openai1.6.1 -i https://pypi.tuna.tsinghua.edu.cn/simple/ """ This script is an example of using the OpenAI …

人工智能复习

机器学习中线性回归和逻辑回归&#xff1a; 机器学习的分类&#xff1a; 监督学习和无监督学习&#xff0c;半监督学习 监督学习&#xff08;Supervised Learning&#xff09;&#xff1a; 监督学习是一种利用带有标签&#xff08;标记&#xff09;的数据进行训练的机器学习…

【学习总结】地面路谱分析

本文仅用于记录自己的学习总结&#xff0c;包括个人理解。不保证内容严格正确。 0. 参考资料 [1] 国标GB/T 703-2005/ISO 8608:1995。[2] Bilibili-车辆考研-路面不平度统计特性[3] Bilibili-清华大学《汽车理论》[4] 网络参考文档.[5] 论文&#xff1a;高雄《路面不平度统计…

什么是Helm?它是如何提升云原生应用私有化部署效率的

转载至我的博客 &#xff0c;公众号&#xff1a;架构成长指南 试想一下&#xff0c;如果有一个项目有50 个微服务&#xff0c;每个微服务都有service、deployment、ingress、pvc等 yaml 文件&#xff0c;算下来大概有 200 个文件&#xff0c;然后这个项目需要基于k8s进行私有化…

强化学习求解TSP(四):Qlearning求解旅行商问题TSP(提供Python代码)

一、Qlearning简介 Q-learning是一种强化学习算法&#xff0c;用于解决基于奖励的决策问题。它是一种无模型的学习方法&#xff0c;通过与环境的交互来学习最优策略。Q-learning的核心思想是通过学习一个Q值函数来指导决策&#xff0c;该函数表示在给定状态下采取某个动作所获…
最新文章