Pytorch DataLoader 提高模型训练时的 Volatile Gpu-Util(GPU利用率)

文章目录

  • 1. 查看GPU显存占比和利用率
  • 2. Pytorch 提高 GPU 利用率的方法

1. 查看GPU显存占比和利用率

watch -n 0.2 nvidia-smi

0.2 代表每隔 0.2 秒刷新一次 GPU 使用情况

通过调整 batch_size 可以使 Memory-Usage(GPU显存占比)尽可能高;但Volatile Gpu-Util(GPU利用率)通常在 0 ~ 100% 之间动态变化,因为 GPU 用于网络中的矩阵运算,但数据集是从 CPU 中加载的。所以在网络训练时 Gpu-Util 高,数据加载时 Gpu-Util 低。

在这里插入图片描述

2. Pytorch 提高 GPU 利用率的方法

如上图的绿色框所示,Gpu-Util 是动态变化的。但如果出现 GPU 显存占用很高,模型也在 cuda 上面执行,但训练速度很慢,且 Gpu-Util 很低的情况; 可能原因是 CPU 的数据加载太慢,尤其是在多卡服务器中,多个程序同时执行,这个问题会更加严重。

此时应该在 Pytorch 的 DataLoader 中设置 “pin_memory=True”,以及num_workers 参数:

from torch.utils.data import DataLoader
train_dataloader = DataLoader(dataset, batch_size, pin_memory=True, num_workers=4)
  • pin_memory 用于设置是否在 dataloader 返回数据之前将 Tensors 复制到 device/CUDA 中,默认为 False。其作用是锁页内存,将数据存储在的固定内存页上,不与硬盘进行内存交换,从而提高将数据从 CPU 传输到 GPU 的效率。
  • num_workers 用于设置加载数据的多进程的数量,默认为 0。在 windows 系统下可能只能设置为 0,在 linux 中可以设置为大于 1 的数,具体设置与服务器的 CPU 数量、batch_size 等参数有关。

Pytorch DataLoader class 官方介绍:torch.utils.data.DataLoader

实际使用中,在 batch_size=32 时,设置 pin_memory=True 和 num_workers=4 的训练速度是设置 pin_memory=False和 num_workers=0 的 40 倍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/470262.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【联邦学习Fate架构讲解】

1.联邦学习的网络架构 P2P网络 网络中的每个成员建议通信 Star网络 网络中的每个成员只需要和中心的exchange交换信息 2. FATE中的架构 2.1 EggRoll分布式计算和存储 Egg Roll分布式计算和存储 存储部分 storage service计算部分 processor管理 egg manager 2.2 FateBoard联…

如何解决node-sass下载用的还是过期的淘宝源?

下载node-sass发现报错过期的证书 把npm的淘宝源换成最新的https://registry.npmmirror.com后发现还是指向了以前的淘宝源,看到一位博主说,单改npm源不够还要改下载node-sass的源,再次搜索另外一位博主提供了命令npm config ls可以使用它来查…

[GPT概念-02] — 预训练、微调和不同的用例应用

GPT: Generative Pretrained Transformer 一、说明 在之前的博客中,我们研究了生成式预训练转换器的整个概述。现在让我们看看关于预训练、微调和不同用例应用的超级重要主题。 二、预备训练 预训练是关于在没有监督或显式监督的情况下,我们从大型未标记…

WPF按钮相关

跟着官网敲的按钮相关的内容,还涉及了wpf很多其他的知识 1.创建基本按钮 <Grid><StackPanel HorizontalAlignment"Left"><Button>Button1</Button><Button>Button2</Button><Button>Button3</Button></StackPan…

开源模型应用落地-安全合规篇-模型输出合规性检测(三)

一、前言 为什么我们需要花大力气对用户输入的内容和模型生成的输出进行合规性检测,一方面是严格遵守各项法规要求,具体如下:互联网信息服务深度合成管理规定https://www.gov.cn/zhengce/zhengceku/2022-12/12/content_5731431.htm ​ 其次,受限于模型本身的一些缺陷,…

目标检测——PP-YOLO算法解读

PP-YOLO系列&#xff0c;均是基于百度自研PaddlePaddle深度学习框架发布的算法&#xff0c;2020年基于YOLOv3改进发布PP-YOLO&#xff0c;2021年发布PP-YOLOv2和移动端检测算法PP-PicoDet&#xff0c;2022年发布PP-YOLOE和PP-YOLOE-R。由于均是一个系列&#xff0c;所以放一起解…

大数据技术学习笔记(十三)—— HBase

目录 1 Hbase 概述1.1 Hbase 定义1.2 HBase 数据模型1.2.1 HBase 逻辑结构1.2.2 HBase 物理存储结构1.2.3 数据模型 1.3 HBase 基本架构 2 HBase Shell 操作2.1 基本操作2.2 namespace 操作2.3 表操作 3 HBase 原理深入3.1 RegionServer 架构3.2 HBase 写流程3.3 MemStore Flus…

华为中心AP 配置入侵防御实验

配置入侵防御示例 组网图形 图1 入侵防御组网图 组网需求配置思路操作步骤中心AP的配置文件 组网需求 如图1所示&#xff0c;某企业部署了WLAN网络&#xff0c;内网用户可以访问Internet的Web服务器。现需要在中心AP上配置入侵防御功能&#xff0c;具体要求如下&#xff1a; 保…

python基于django的高校迎新系统 flask新生报到系统

系统的登录界面和业务逻辑简洁明了&#xff0c;采用一般的界面窗口来登录界面,整个系统更加人性化&#xff0c;用户操作更加简洁方便。本系统在操作和管理上比较容易&#xff0c;还具有很好的交互性等特点&#xff0c;在操作上是非常简单的。因此&#xff0c;本系统可以进行设计…

基础知识(读取指定数据/布尔索引/nan/inf)

读取数据 代码 import numpy as np# 文件的路径 us_file_path"./youtube_video_data/US_video_data_numbers.csv" uk_file_path"./youtube_video_data/GB_video_data_numbers.csv"# 读取文件 t1np.loadtxt(us_file_path,delimiter,,dtypeint) t2np.loadt…

【2024.3.19练习】统计子矩阵

题目描述 题目分析 这道题一开始没有思路&#xff0c;使用蛮力枚举的方法时间复杂度为&#xff0c;显然超时。 参考题解后学会了化二维问题为一维问题&#xff0c;先使用的复杂度限制子矩阵的高度&#xff0c;再考虑列&#xff0c;这样就将子矩阵的和问题转变为了连续子序列的…

本地gitlab-runner的创建与注册

引言 之前通过一些方式在本地创建runner&#xff0c;时而会出现一些未知的坑&#xff0c;所以写下本文记录runner可以无坑创建的方式。 以下注册runner到相应仓库的前提是已经在本地安装了gitlab-runner 具体安装方式见官网 本地gitlab-runner安装常用的指令 查看gitlab r…

[Qt学习笔记]QT下获取Halcon图形窗口鼠标事件并执行相应操作

目录 1、背景2、参考信息3、目标4、步骤4.1 Halcon库的配置4.2 读取图像&#xff0c;并实现图像自适应窗体控件大小4.3 主要的图形绘制和贴图操作见如下代码&#xff0c;其中重点为全局函数的创建来实现选择Select、拖拽Drag和尺寸Resize事件响应。 5、总结 1、背景 在视觉项目…

大广赛都有哪些命题可以选择,已更新命题汇总

截止到2024年3月19日&#xff0c;今年的大广赛一共发布了6个命题&#xff0c;本文就给大家汇总一下今年的命题细节都有哪些&#xff1f; 即时设计命题 即时设计命题素材和资源下载 一、UI类 1、界面设计   针对当下社会所关注的热点问题&#xff0c;包括但不限于&#xff1…

【c语言篇】每日一题-pta-实验11-2-9 链表逆置

题目如下&#xff1a; 裁判测试程序样例&#xff1a; #include <stdio.h> #include <stdlib.h>struct ListNode {int data;struct ListNode *next; };struct ListNode *createlist(); /*裁判实现&#xff0c;细节不表*/ struct ListNode *reverse( struct ListNod…

Flutter Widget:StatefulWidget StatelessWidget

Widget 概念 Widget 将是构建Flutter应用的基石&#xff0c;在Flutter开发中几乎所有的对象都是一个 Widget 。 在Flutter中的widget 不仅表示UI元素&#xff0c;也表示一些功能性的组件&#xff0c;如&#xff1a;手势 、主题Theme 等。而原生开发中的控件通常只是指UI元素。…

耐腐蚀高纯特氟龙塑料量瓶进口聚四氟乙烯材质PFA容量瓶

PFA容量瓶&#xff0c;也叫特氟龙量瓶&#xff0c;是用于配制标准浓度溶液的精确实验室器皿&#xff0c;是有着细长颈、梨形肚的耐强腐蚀平底塑料瓶&#xff0c;颈上有标线&#xff0c;常用来直接配制标准溶液和准确稀释溶液以及制备样品溶液。因其有着不易碎、材质纯净、化学稳…

如何让自己上百度百科?个人百科词条创建

百度百科&#xff0c;作为我国最大的中文百科全书&#xff0c;其影响力和权威性不言而喻。能够登上百度百科&#xff0c;意味着个人的知名度、成就和社会影响力得到了广泛认可。那么&#xff0c;如何才能让自己上百度百科呢&#xff1f;接下来伯乐网络传媒就来给大家讲解一下。…

基于Spring Boot网络相册设计与实现

摘 要 网络相册设计与实现的目的是让使用者可以更方便的将人、设备和场景更立体的连接在一起。能让用户以更科幻的方式使用产品&#xff0c;体验高科技时代带给人们的方便&#xff0c;同时也能让用户体会到与以往常规产品不同的体验风格。 与安卓&#xff0c;iOS相比较起来&am…

Unity 学习笔记 2.预制体,Instantiate()生成,Destroy()销毁

下载源码 UnityPackage 1. 动态创建预制体 // 在外部拖入预制体public GameObject enemy;void Start(){for (int i 0; i < 5; i){// 生成游戏对象&#xff1a;Instantiate();GameObject ENEMY Instantiate(enemy);// 根据i的增大&#xff0c;一字排开ENEMY.GetComponent&l…