CUDA简介——同步

1. 引言

前序博客:

  • CUDA简介——基本概念
  • CUDA简介——编程模式
  • CUDA简介——For循环并行化
  • CUDA简介——Grid和Block内Thread索引
  • CUDA简介——CUDA内存模式

在这里插入图片描述

本文重点关注Thread同步和Barriers。

Threads并行执行,可能存在如下问题:

  • 1)Race condition条件竞争:Thread A会在Thread B写入结果之前,读取某地址的值。

为此,需要引入Thread同步机制:

  • 强迫一部分Device代码顺序执行,以强迫同一Block内的Threads同步。
    具体可为:
    • 1)实现Explicit Barrier:Barrier为Kernel内某个point,在该point,Block内所有Threads会stop并相互等待。当Block内所有Threads都到达该Barrier时,会继续各自执行。
      具体实现方式为:__syncthreads();
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

以数组左移为例:

  • 由于a[i]=a[i+1]为读写操作,需确保a[i]先读后写。为此,需引入名为temp的register。并__syncthreads;等待所有读取操作完成。
  • 为确保所有位移操作均已结束,再返回位移后的结果,需__syncthreads;等待所有写操作完成。

在这里插入图片描述

除此之外,还可实现Kernel launches间的Implicit Barrier:

  • Host代码并不会等待Device代码执行结束返回后,再继续执行后续Host代码。即Host代码和Device代码是异步执行的。
  • 为让Host代码等待kernel执行完成,需使用关键字:cudaDeviceSynchronize()。这样,Host代码会暂停,直到前一kernel执行完成。
    在这里插入图片描述

不过,若连续启动2个kernel,则确保第二个kernel无法分配grid到device中执行,其implicitly需等待第一个kernel执行结束后,才会执行第二个kernel。
在这里插入图片描述

参考资料

[1] Intro to CUDA (part 6): Synchronization

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/217133.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

芯擎科技与芯华章深度合作,软硬件协同开发加速车规级芯片创新

12月4日,系统级验证EDA解决方案提供商芯华章,与国产高端车规芯片设计公司芯擎科技正式建立战略合作。双方强强联手,芯擎科技导入芯华章相关EDA验证工具,赋能车规级芯片和应用软件的协同开发,助力大规模缩短产品上市周期…

PoE技术详解

标准的五类网线有四对双绞线,IEEE 802.3af和IEEE 802.3at允许两种用法:通过空闲线对供电或者数据线对供电。IEEE 802.3bt允许通过空闲线对供电、通过数据线对供电或者空闲线对和数据线对一起供电,如图16.1所示。 图 16.1 PoE供电线对 当在一…

第一节JavaScript 简介与使用

JavaScript简介 JavaScript是互联网上最流行的脚本语言,这门语言可用于HTML和Web,更广泛用于服务器、PC、电脑、智能手机等设备上。 JavaScript是一种轻量级的编程语言。 JavaScript是可插入HTML页面的编程代码。 JavaScript插入HTML页面后&#xff…

使用coco数据集进行语义分割:数据预处理与损失函数

如何coco数据集进行目标检测的介绍已经有很多了,但是关于语义分割几乎没有。本文旨在说明如何处理 stuff_train2017.json stuff_val2017.json panoptic_train2017.json panoptic_val2017.json,将上面那些json中的dict转化为图片的label mask&am…

【Proteus仿真】【Arduino单片机】蔬菜大棚温湿度控制系统设计

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 本项目使用Proteus8仿真Arduino单片机控制器,使用PCF8574、LCD1602液晶、DHT11温湿度传感器、按键、继电器、蜂鸣器、加热、水泵电机等。 主要功能: 系统运行后,LCD160…

【模电】设置静态工作点的必要性

设置静态工作点的必要性 静态工作点为什么要设置静态工作点 静态工作点 在放大电路中,当有信号输入时,交流量与直流量共存。将输入信号为零、即直流电源单独作用时晶体管的基极电流 I B I\tiny B IB、集电极电流 I C I\tiny C IC、b - e间电压 U B E U\t…

玩转大数据5:构建可扩展的大数据架构

1. 引言 随着数字化时代的到来,大数据已经成为企业、组织和个人关注的焦点。大数据架构作为大数据应用的核心组成部分,对于企业的数字化转型和信息化建设至关重要。我们将探讨大数据架构的基本要素和原则,以及Java在大数据架构中的角色&…

智能指针与动态内存

动态内存 new placement new 是 C 中的一种内存分配方式,它允许在给定的内存地址上构造对象,而不是在默认的堆上分配新的内存。这对于某些特殊的内存管理场景非常有用,例如在特定的内存池中分配对象。 C11 引入了 "new auto" 语法…

【C语言】递归详解

目录 1.前言2. 递归的定义3. 递归的限制条件4. 递归举例4.1 求n的阶乘4.1.1 分析和代码实现4.1.2 画图演示 4.2 顺序打印一个整数的每一位4.2.1 分析和代码实现4.2.2 画图推演 4.3 求第n个斐波那契数 5. 递归与迭代5.1 迭代求第n个斐波那契数 1.前言 这次博客内容是与递归有关&…

leetcode 876.链表的中间结点

补充上次的环形链表没细讲的快慢指针(这三道题现在可以连起来看),希望对你做题思路有帮助 876.链表的中间结点 题目 给你单链表的头结点 head ,请你找出并返回链表的中间结点。 如果有两个中间结点,则返回第二个中间结…

kubernetes监控GPA安装部署

本文在于指导如何对k8s的监控GPA(Grafana,prometheus以及alertmanager)进行安装部署。 1. 介绍 Prometheus 在真正部署Prometheus之前,应了解一下Prometheus的各个组件之间的关系及作用: 1)MertricServer:是k8s集群…

面试官:说说synchronized与ReentrantLock的区别

程序员的公众号:源1024,获取更多资料,无加密无套路! 最近整理了一波电子书籍资料,包含《Effective Java中文版 第2版》《深入JAVA虚拟机》,《重构改善既有代码设计》,《MySQL高性能-第3版》&…

【NI-RIO入门】Real Time(实时系统解释)

1.什么是实时系统? 实时系统可以非常精确可靠的执行需要特定时许要求的系统,对于许多工程项目来说,通用操作系统,例如WINDOWS等标准PC上运行测量和控制程序是无法精确控制计时的,这些系统很容易受用户的其他程序、图像…

联想LJ2655DN激光打印机清零方法

随着打印机的使用越来越频繁,需要更换耗材的时候也越来越多;但是更换上新的耗材后,很多用户都会遇到一个问题,就是更换完新的耗材后打印机仍然提示寿命将近,或者无墨粉盒灯情况,这个时候就需要我们对打印机…

关于使用百度开发者平台处理语音朗读问题排查

错误信息:"convert_offline": false, "err_detail": "16: Open api characters limit reach 需要领取完 识别和合成都要有

Win7 旗舰版打开Rustdesk软件提示无法启动程序 ,计算机中丢失api-ms-win-shcore-scaling-|1-1-1.dll

环境: Win7 旗舰版 64位 Rustdesk1.19自编译客户端 问题描述: Win7 旗舰版打开Rustdesk软件提示无法启动程序 ,计算机中丢失api-ms-win-shcore-scaling-|1-1-1.dll "api-ms-win-shcore-scaling-|1-1-1.dll" 是一个系统动态链接库文件,它是Windows操作系统的一…

Selenium 学习(0.16)——软件测试之测试用例设计方法——白盒测试——逻辑覆盖法(语句覆盖和判定覆盖)

写在前面 今天回来有点晚,因为上午给小伙伴们开了个小会,随便说了些什么,结果小伙伴们下班就没急着走,弄点我还有点不好意思提前走了,就略留了一会。其实也没说什么,就是强调工作要抓点紧,8小时…

【Windows下】Eclipse 尝试 Mapreduce 编程

文章目录 配置环境环境准备连接 Hadoop查看 hadoop 文件 导入 Hadoop 包创建 MapReduce 项目测试 Mapreduce 编程代码注意事项常见报错 配置环境 环境准备 本次实验使用的 Hadoop 为 2.7.7 版本,实验可能会用到的文件 百度网盘链接:https://pan.baidu…

ADB命令集锦,一起来学吧

前言 在测试APP时,我们常常会用到adb命令来协助测试,那么adb命令到底是什么?有什么用?怎么用? 今天我就整理了一些工作中常用的adb知识点,希望对大家有所帮助。 ADB学习全攻略 ADB是什么? a…

【STM32】TIM定时器输出比较

1 输出比较 1.1 输出比较简介 OC(Output Compare)输出比较;IC(Input Capture)输入捕获;CC(Capture/Compare)输入捕获和输出比较的单元输出比较可以通过比较CNT与CCR寄存器值&#…