hpcpilot网卡驱动配置:Mellanox网卡安装与优化的终极方案
hpcpilot网卡驱动配置:Mellanox网卡安装与优化的终极方案
【免费下载链接】hpcpilotA collection of HPC delivery tools, including basic system configuration, node inspection, performance testing, third-party service installation, etc.项目地址: https://gitcode.com/openeuler/hpcpilot
前往项目官网免费下载:https://ar.openeuler.org/ar/
hpcpilot是openEuler社区提供的HPC交付工具集,包含系统基础配置、节点检查、性能测试和第三方服务安装等功能。本文将详细介绍如何使用hpcpilot实现Mellanox网卡驱动的自动化安装与性能优化,帮助新手用户快速完成高性能计算环境的网络配置。
为什么选择Mellanox网卡?
Mellanox ConnectX系列网卡以其卓越的RDMA性能和低延迟特性,成为高性能计算集群的理想选择。通过hpcpilot提供的自动化脚本,用户可以轻松完成驱动安装、网络配置和参数优化,充分发挥Mellanox网卡的硬件潜力。
准备工作:环境检查与依赖安装
在开始安装前,请确保您的系统满足以下条件:
- 物理机部署(虚拟机无需安装Mellanox驱动)
- 网络类型配置为IB(1)或RoCE(2)模式(TCP模式无需安装)
- 已下载Mellanox驱动文件(MLNX_OFED_LINUX开头的tgz包)
hpcpilot提供了完整的依赖检查与安装功能,执行以下命令即可自动处理不同操作系统的依赖包:
# 依赖检查脚本位置 hpc_script/basic_script/cas_mellanox.sh该脚本会根据系统类型(openEuler、CentOS或Kylin)自动安装tcsh、pciutils-devel等必要依赖,确保驱动安装顺利进行。
一键安装:Mellanox驱动自动化部署
hpcpilot的cas_mellanox.sh脚本实现了驱动安装的全自动化流程,核心步骤包括:
- 驱动文件检测:自动查找
sourcecode_dir目录下的MLNX_OFED_LINUX驱动包 - 依赖处理:根据操作系统类型安装相应的依赖库
- 驱动解压与安装:使用
mlnxofedinstall --force命令执行无交互安装 - 模块加载:重启openibd服务并加载必要内核模块
- 网络配置:根据网络类型(IB/RoCE)自动配置IP和VLAN
执行安装命令:
# 执行安装脚本 hpc_script/basic_script/cas_mellanox.sh安装完成后,可通过以下命令验证驱动版本:
ofed_info -n性能优化:释放Mellanox网卡潜力
hpcpilot提供了专门的优化脚本cx.sh,通过调整网卡参数实现性能最大化。优化内容包括:
1. 基础网络参数配置
# 设置MTU为4500(Jumbo Frame) ifconfig ${if_dev} mtu 45002. RDMA QoS优化
# 配置RDMA-CM QP默认TOS为106 cma_roce_tos -d ${mlx_dev} -t 106 # 配置PFC队列和DSCP映射 mlnx_qos -i ${if_dev} --pfc 0,0,0,0,1,0,0,0 --trust dscp mlnx_qos -i ${if_dev} --dscp2prio set,26,43. ECN功能启用
# 配置CNP报文DSCP为48 echo 48 >/sys/class/net/${if_dev}/ecn/roce_np/cnp_dscp # 启用4队列ECN功能 echo 1 >/sys/class/net/${if_dev}/ecn/roce_np/enable/4 echo 1 >/sys/class/net/${if_dev}/ecn/roce_rp/enable/4优化脚本会自动对所有Mellanox网卡应用上述配置,您可以在以下路径找到该脚本:
hpc_script/basic_script/cx.sh验证与故障排除
安装完成后,hpcpilot会自动执行检查流程,您也可以手动运行检查命令:
# 检查Mellanox驱动状态 hpc_script/basic_script/auto_check_script.sh常见问题处理:
- 驱动未启动:检查网线连接状态,执行
/etc/init.d/openibd restart - 依赖缺失:确保sourcecode目录包含所需的依赖包(如tcsh的rpm包)
- IP配置错误:检查
hostname.csv文件中的高速网卡IP配置
总结
通过hpcpilot提供的cas_mellanox.sh和cx.sh脚本,用户可以轻松完成Mellanox网卡的驱动安装与性能优化。这种自动化方案不仅降低了配置难度,还确保了集群环境的一致性和最佳性能。无论是IB还是RoCE网络环境,hpcpilot都能提供完整的解决方案,帮助您快速构建高效稳定的HPC集群网络。
如需了解更多hpcpilot功能,请参考项目中的脚本介绍文档:hpc_script/hpcpilot脚本介绍.md。
【免费下载链接】hpcpilotA collection of HPC delivery tools, including basic system configuration, node inspection, performance testing, third-party service installation, etc.项目地址: https://gitcode.com/openeuler/hpcpilot
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考