CANN开源社区组织介绍

📅 2026/7/5 1:49:07 👁️ 阅读次数 📝 编程学习
CANN开源社区组织介绍

🔥DeepSeek V4专区🔥

【免费下载链接】community本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息项目地址: https://gitcode.com/cann/community

  • 🔥直播回看:DeepSeek-V4昇腾首发,基于CANN的训推优化实践
  • 🔥技术报告:NPU DeepSeek V4推理优化实践 | DeepSeek-V4昇腾训练支持
  • 🔥模型部署:推理|训练;权重下载:FLASH
  • 🔥V4 算子:Attention相关算子 | mHC相关算子 | PyPTO | Tilelang
  • 🔥参与技术讨论,专家在线答疑 | 有奖社区任务

开源项目

组件描述源码仓
算子库提供了丰富的深度优化、硬件亲和的高性能算子,为神经网络在昇腾硬件上加速计算提供基础。ops-nn
ops-math
ops-transformer
ops-cv
通信库基于昇腾硬件的高性能通信库,提供单机多卡及多机多卡间的数据并行、模型并行通信方案。hixl
shmem
hccl
hcomm
领域加速库针对特定领域或场景的算子和算法的结合。ascend-transformer-boost
sip
图引擎面向昇腾的图编译器和执行器,提供图优化、多流并行、内存复用和模型下沉等功能。ge
metadef
graph-autofusion
triton-inference-server-ge-backend
算子编程CANN针对算子开发场景推出的编程语言,最大化匹配用户开发习惯,提供算子模板库,支持算子极简编程。asc-devkit
pyasc
pypto
pto-isa
atvoss
catlass
运行时提供了高效的硬件资源管理、媒体数据预处理、单算子加载执行、模型推理等开发接口,供开发者轻松构建高性能人工智能应用。runtime
驱动提供了基础驱动、设备管理、资源管理及调度、通信能力等功能,使能昇腾芯片,充分发挥硬件能力,支撑CANN上层软件高效稳定运行。driver
工具提供CANN平台的各种工具,如算子调试调优工具、故障定位、模型压缩等。asc-tools
oam-tools
amct

关于社区

社区治理架构及章程

CANN 社区采用分层协作的治理模式,当前架构主要包括以下组织:

  • 技术指导委员会(TSC-Technical Steering Committee)
  • 项目管理委员会(PMC-Project Management Committee)
  • 特别兴趣小组(SIG-Special Interest Group)

更多社区治理内容,详见:社区治理章程

参与贡献

  • 基础贡献:包含参与社区会议、社区邮件讨论、提交 Issue 、处理 Issue 任务、提交PR等。
  • 进阶贡献:包含新建 SIG、成为核心贡献者、组织会议、新建仓库、引入开源软件、发布新版本或新仓库等。

快速体验

若您希望快速体验CANN算子的调用和开发过程,请访问如下文档获取简易教程。

  • 算子调用:介绍调用算子的基本步骤,快速搭建环境,实现算子编译执行。
  • 算子开发:介绍开发算子的基本流程,一键创建算子工程目录,实现Tiling、Kernel核心交付件。

🔥一站式开发平台:您也可在对应仓库中点击“CANNLab”,在一站式在线开发环境中限时免费体验昇腾算力。🔥

实践样例

⚓推理 | 🚈 训练 | 🔮 空间智能 | 🎮 具身智能 | 📱 鸿蒙推理

|热门实践 |描述 | |--|--| |NPU DeepSeek-V4推理优化实践 | DeepSeek团队发布了最新的模型DeepSeek-V4系列模型,包含DeepSeek-V4 Flash和DeepSeek-V4 Pro两种规格。在DeepSeek-V3.2的稀疏Attention(DeepSeek Sparse Attention)的基础上,在不同层间进一步通过KV Cache滑窗 (Window Cache) 和压缩算法 (KV Cache Compress),减少Attention的计算和访存开销,可以大幅提升长序列的计算效率,降低推理的成本。本实践0 Day支持了DeepSeek-V4的模型推理部署,并适配支持Atlas-A3和950PR/DT多代际昇腾芯片。 | |DeepSeek-V4昇腾训练支持 | 本文介绍 DeepSeek-V4-Flash 模型基于 CANN 平台的训练优化实践。基于 TorchTitan-NPU 框架,采用纯 FSDP + 大 EP 极简并行策略实现内存最优;创新性地使能训练入图技术,凭借 Ascend C AutoFuse 能力,获得端到端 32% 的编译收益;针对稀疏注意力结构定制高效融合算子,充分释放芯片算力。 | |DeepSeek-V3.2-Exp模型支持推理部署 | 基于Transformers库,在Atlas A3环境中Prefill阶段采用了长序列亲和的CP并行策略,Decode阶段沿用大EP并行,同时整网设计新的NPU融合Kernel和多流并行优化,实现较高的吞吐推理性能。 | |DeepSeek-R1 RL训练优化实践 | 基于开源veRL框架,搭配MindSpeed+vLLM-Ascend框架,在Atlas A3集群实现GRPO算法的高吞吐RL训练,并达到120TPS/卡的系统吞吐量。 | |HunyuanVideo模型推理优化实践 | 基于xDiT框架,在Atlas A2环境中采用了Ulysses序列并行和RingAttention序列并行测量,同时适配了TeaCache加速,实现了较优的推理性能。 | |VGGT模型推理优化实践 | 基于VGGT开源模型,完成其在Atlas A2上的推理适配,并提供其在相机位姿估计、点云三维重建、深度估计三个任务上的精度评测脚本。 | |Pi0模型推理优化实践 | 基于LeRobot库,在Atlas A2环境适配Pi0模型,通过使能融合算子、图模式、计算逻辑优化等手段,实现了较低的推理时延。 | |QQ音乐声伴分离鸿蒙推理优化实践 | 实现QQ音乐声伴分离业务模型中的BandNorm等算子在鸿蒙设备上的高性能推理部署。 |

社区活动

  • 社区会议日历:如果您对CANN社区的各类会议感兴趣,可访问会议日历。
  • 🔥CANN开源开放系列直播:大咖细剖开源政策和计划,maintainer全面解读热门开源项目。
  • 🔥昇腾AI算法挑战赛进阶赛:昇腾AI算法挑战赛旨在汇聚全球各领域的优秀开发者同台竞技。开放昇腾AI计算平台的全栈能力与API资源,鼓励开发者构建高效创新的AI模型,解决实际场景问题。
  • CANN训练营赢华为三折叠等大奖。
  • 昇腾AI创新大赛-算子挑战赛:昇腾AI创新大赛-算子挑战赛旨在培养一批精通Ascend C算子开发的开发者,鼓励开发者基于CANN的基础能力进行深度创新与实践。

联系我们

  • 社区邮件订阅:选择需要订阅的组织(TSC/PMC/SIG等),填写相关信息,进行邮件订阅(邮件推送内容包含:会议通知、会议纪要、内容讨论等),如果您对相关组织有诉求或者问题,也可以通过邮箱途径联系。

  • 昇腾CANN(社交媒体)

    |

    B站
    |
    微信公众号
    |
    知乎
    |
    CSDN
    | |--|--|--|--| |||||
  • cann@cann.team

相关链接

  • 昇腾社区
  • 鸿蒙社区

【免费下载链接】community本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息项目地址: https://gitcode.com/cann/community

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考