当我们想用GPU(nlp模型篇)

在个人设备上“把 GPU 真正用起来”做 NLP,分五步:准备 → 安装 → 验证 → 训练/推理 → 踩坑排查。下面每一步都给出可复制命令和常见错误。

──────────────────

1. 硬件准备

• 一张 NVIDIA GPU,算力 ≥ 6.1(GTX 1660 Ti/RTX 2060 及以上)。

• 显存 ≥ 6 GB(7B 模型 LoRA 微调够用)。

• PCIe 供电充足,电源 ≥ 500 W。

──────────────────

2. 驱动 & CUDA 一键装

Ubuntu 20.04 为例(Win11 直接在官网下 EXE 即可):

sudo apt update && sudo apt install -y nvidia-driver-535
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/12.3.0/local_installers/ ubuntu2004 main"
sudo apt install -y cuda-12-3

重启后执行 nvidia-smi,能看到 GPU 型号即 OK。

──────────────────

3. Conda + PyTorch GPU 版

conda create -n nlp python=3.10 -y
conda activate nlp
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

验证:

import torch
print(torch.cuda.is_available(), torch.cuda.get_device_name(0))

输出 True 和显卡型号即可。

──────────────────

4. 训练脚本里显式用 GPU

示例:用 transformers + LoRA 微调 7B 模型

from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments, Trainer
from peft import LoraConfig, get_peft_modelmodel_name = "baichuan-inc/Baichuan2-7B"
model = AutoModelForCausalLM.from_pretrained(model_name,torch_dtype="auto",device_map="auto"        # 自动分到 GPU
)
lora_config = LoraConfig(task_type="CAUSAL_LM", r=8, lora_alpha=32)
model = get_peft_model(model, lora_config)args = TrainingArguments(output_dir="out",per_device_train_batch_size=1,gradient_accumulation_steps=16,fp16=True,                # 混合精度dataloader_pin_memory=True,logging_steps=10
)
trainer = Trainer(model=model, args=args, train_dataset=dataset)
trainer.train()

关键参数

device_map="auto" 自动把不同层放到 GPU / CPU / 磁盘。

fp16=Truebf16=True 可省 40% 显存。

gradient_checkpointing=True 再省 20% 显存,速度略慢。

──────────────────

5. 推理显存最小化

• 仅推理:

from transformers import pipeline
pipe = pipeline("text-classification", model="IDEA-CCNL/Erlangshen-Mini", device=0)  # device=0 强制 GPU

• 量化示例(4-bit):

from transformers import BitsAndBytesConfig
bnb = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_compute_dtype=torch.float16)
model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=bnb)

显存占用从 14 GB 降到 6 GB。

──────────────────

6. 常见报错速查

报错 原因 解决
CUDA out of memory batch 过大 降 batch / 开 gradient checkpointing
cuDNN version mismatch 驱动与 PyTorch 不匹配 conda install cudatoolkit=11.8 与驱动对应
NCCL error 多卡通讯 单机单卡可 CUDA_VISIBLE_DEVICES=0 规避

──────────────────

7. 一键脚本(保存即用)

setup_gpu.sh

#!/bin/bash
conda create -n nlp python=3.10 -y
conda activate nlp
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install transformers datasets accelerate peft bitsandbytes
python -c "import torch; print('GPU OK:', torch.cuda.is_available())"

执行 bash setup_gpu.sh,30 秒后可直接跑 GPU 训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/2821.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

celery

celery是什么celery是Python开发的简单的、灵活可靠的、处理大量消息的分布式任务调度模块专注于实时处理的异步任务队列同时支持任务调度celery本身不含消息服务,它使用第三方消息服务来传递任务,支持的消息服务有RabbitMQ、Redis、Amazon SQS,celery本…

MeterSphere接口自动化多场景批量运行复制引用

一、场景批量执行 全选,点击任意对号后面的三个冒号图标,可以看到批量处理(批量执行、批量编辑、批量移动、批量复制等)批量编辑,可以对用例等级,状态,责任人,运行环境、标签更改 选择批量更改标签&#xf…

Flutter 小技巧之有趣的 UI 骨架屏框架 skeletonizer

很久没有更新过小技巧系列,今天简单介绍一个非常好用的骨架屏框架 skeletonizer ,它主要是通过将你现有的布局自动简化为简单的骨架,并添加动画效果来实现加载过程,而使用成本则是简单的添加一个 Skeletonizer 作为 parent &…

RabbitMQ面试精讲 Day 26:RabbitMQ监控体系建设

【RabbitMQ面试精讲 Day 26】RabbitMQ监控体系建设 在“RabbitMQ面试精讲”系列的第26天,我们将聚焦于RabbitMQ监控体系建设这一关键运维主题。作为消息中间件的核心组件,RabbitMQ一旦出现消息积压、节点宕机或资源耗尽等问题,将直接影响系统…

强化学习中的重要性采样:跨分布复用样本的核心技术

在强化学习中,智能体需与环境交互采集样本(轨迹、状态 - 动作对)以更新策略。但 “样本分布必须与目标策略分布一致” 的同策略限制,会导致采样效率低下(每次策略更新都需重新采样)。此时,** 重…

SWMM排水管网水力、水质建模及海绵城市与水环境中的应用

一:SWMM软件及水力建模基础 1.1软件模块结构 1.2建模基础数据的分类及获取方法概述 1.3软件基本功能介绍 1.4 SWMM相较于其他商业软件的优缺点二:管网水质建模基础 2.1数据需求分析 各种SWMM对象的数据需求以及含义 2.2基础数据整理 2.3基础数据的输入 各…

MySQL 50 道经典练习题及答案

目录 一、数据表设计与初始化 1. 数据表结构说明 2. 建表语句 3. 插入测试数据 二、练习题及答案 1. 查询 "01" 课程比 "02" 课程成绩高的学生的信息及课程分数 2. 查询同时存在 "01" 课程和 "02" 课程的情况 3. 查询存在 &qu…

MyCAT分库分表

MyCAT分库分表 前言: 很难评价的软件 尝试通过修改配置文件做到分库分表 你会发现一些很离谱的BUG 或者是主从分离的时候 你也会发现 莫名其妙的BUG ‍ 创建基础环境192.168.3.145192.168.3.159192.168.3.163MyCAT MySQLMySQLMySQL --更改root密码alter user rootlo…

C++开发/Qt开发:单例模式介绍与应用

单例模式是软件设计模式中最简单也是最常用的一种创建型设计模式。它的核心目标是确保一个类在整个应用程序生命周期中只有一个实例,并提供一个全局访问点。笔者白话版理解:你创建了一个类,如果你希望这个类对象在工程中应用时只创建一次&…

学习设计模式《二十三》——桥接模式

一、基础概念 桥接模式的本质是【分离抽象和实现】。 桥接模式的定义:将抽象部分与它的实现部分分离,使它们都可以独立地变化。 认识桥接模式序号认识桥接模式说明1什么是桥接通俗点说就是在不同的东西之间搭一个桥,让它们能够连接起来&a…

HTML+CSS:浮动详解

在HTMLCSS布局中,浮动(float) 是一种经典的布局技术,用于控制元素在页面中的排列方式。它最初设计用于实现文字环绕图片的效果,后来被广泛用于复杂布局,但随着Flexbox和Grid的兴起,其使用场景有…

PAT 1074 Reversing Linked List

题目的意思给出一个链表,让我们每隔K个进行一次反转,如果不足K个的,就不进行。 对于链表反转的题目,我第一时间想出来的是,原地进行逆置,不断的变化指针,但这样很麻烦,没有想出来&am…