零基础入门计算机视觉：从环境搭建到图像识别、目标检测与分割实战

📅 2026/7/4 1:47:20 👁️ 阅读次数 📝 编程学习

🚀 30+款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度

想学计算机视觉，但被各种术语和复杂的代码劝退？看到别人用几行代码就能识别图像、检测目标，自己却连环境都配不好？别担心，这篇文章就是为你准备的。

计算机视觉早已不是实验室里的高深学问，而是每个开发者都能掌握的实用技能。从自动驾驶识别路标，到手机相册自动分类照片，再到工业质检，背后都是计算机视觉在发挥作用。但很多初学者一上来就迷失在“卷积神经网络”、“YOLO”、“语义分割”这些概念里，或者卡在环境配置、数据准备这些看似简单却无比磨人的环节。

这篇文章要解决的核心问题，就是帮你从零开始，用最少的理论、最清晰的步骤，真正跑通计算机视觉的三大核心任务：图像识别、目标检测和图像分割。我们不空谈概念，而是直接动手。我会带你搭建一个能跑起来的深度学习环境，用最流行的框架和预训练模型，完成从“看”到“理解”再到“定位”的完整流程。读完本文，你将能独立完成一个简单的视觉项目，并理解不同任务之间的区别与联系，知道下一步该往哪里深入。

1. 这篇文章真正要解决的问题

很多教程一上来就讲复杂的数学公式和网络结构，这就像学开车先学发动机原理，对新手极不友好。我们换一种思路：先跑起来，再理解为什么能跑。

本文要解决三个具体问题：

环境搭建之痛：为什么别人的代码在我这里报错？CUDA、cuDNN、PyTorch/TensorFlow版本到底怎么选？我们将提供一个稳定、可复现的Python环境配置方案。
概念混淆之惑：图像分类、目标检测、语义分割、实例分割……它们到底有什么区别？我该用哪个解决我的问题？我们将用最直观的图示和比喻讲清楚。
从理论到实践之沟：看懂了原理，但代码从哪里开始写？我们将提供三个完整的、可运行的代码示例，分别对应三大任务，你可以直接复制、修改、运行。

我们的目标是：让你在读完本文后，不仅能说出这些概念的区别，更能亲手运行代码看到结果，建立最直接的成就感，从而有动力继续深入。

2. 基础概念与核心原理：用“看图说话”来理解

在深入代码之前，我们必须先统一“语言”。计算机视觉的几大任务，可以类比成人类看图的几个层次：

图像分类 (Image Classification)：回答“图片里有什么？” 比如，给一张图，模型输出“猫”、“狗”或“汽车”。它只关心整张图的类别。
目标检测 (Object Detection)：回答“图片里有什么，它们在哪里？” 比如，不仅识别出有“猫”和“狗”，还要用矩形框（Bounding Box）标出它们各自的位置。
语义分割 (Semantic Segmentation)：回答“图片里每一个像素属于什么？” 比如，把图片中属于“猫”、“狗”、“草地”、“天空”的每一个像素都涂上不同的颜色。它不区分同一类别的不同个体（两只猫都是同一个颜色）。
实例分割 (Instance Segmentation)：目标检测 + 语义分割。回答“图片里每个独立的物体是什么，它们的精确轮廓在哪？” 比如，区分出两只不同的猫，并分别标出它们的精确轮廓。

为了更直观，我们用一个表格来对比：

任务类型	核心问题	输出形式	典型应用	常用模型举例
图像分类	图片里是什么？	一个类别标签	相册自动分类、垃圾邮件识别（图片）	ResNet, VGG, Vision Transformer (ViT)
目标检测	有什么？在哪里？	多个带类别和位置的矩形框	自动驾驶（检测车辆、行人）、安防监控	YOLO系列, SSD, Faster R-CNN
语义分割	每个像素是什么？	一张与输入同尺寸的“染色图”	医疗影像分析（分割肿瘤）、自动驾驶（可行驶区域）	U-Net, FCN, DeepLab
实例分割	每个独立物体是什么？轮廓如何？	多个带类别和像素级掩码（Mask）的物体	机器人抓取（分割每个零件）、照片虚化（区分主体）	Mask R-CNN, YOLACT

背后的核心引擎：卷积神经网络 (CNN)无论上述哪种任务，现代计算机视觉的基石大多是卷积神经网络 (CNN)。你可以把它想象成一个拥有多层“滤镜”的智能系统。第一层滤镜可能只识别简单的边缘和颜色，第二层能组合成纹理（如条纹、斑点），更深层的网络则能识别出眼睛、轮子等复杂部件，最终组合成“猫”或“汽车”的概念。CNN通过这种分层提取特征的方式，让机器学会了“看”。

3. 环境准备与前置条件

工欲善其事，必先利其器。为了避免版本冲突，我们强烈建议使用Anaconda来创建独立的Python环境。以下步骤在Windows/Linux/macOS上通用。

3.1 安装Anaconda

如果你还没有安装，请从 Anaconda官网下载并安装对应操作系统的版本。

3.2 创建并激活虚拟环境

打开终端（Windows叫Anaconda Prompt或CMD，macOS/Linux叫Terminal），执行以下命令：

# 创建一个名为 cv_tutorial 的Python 3.9环境（3.8-3.10皆可） conda create -n cv_tutorial python=3.9 -y # 激活环境 conda activate cv_tutorial

激活后，你的命令行提示符前面应该会显示(cv_tutorial)。

3.3 安装核心深度学习框架：PyTorch

PyTorch因其动态图和易用性，成为目前研究和入门的主流选择。我们将使用PyTorch。

访问 PyTorch官网，根据你的系统（有无NVIDIA GPU）选择安装命令。如果你有NVIDIA显卡并已安装CUDA，可以选择CUDA版本以加速训练。如果没有GPU或不确定，请选择CPU版本，本文示例在CPU上也可运行（速度会慢一些）。

例如，对于没有GPU的Windows/Linux系统，安装命令通常如下：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

对于有CUDA 11.8的Linux系统，命令可能如下（请以官网生成器为准）：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

3.4 安装其他必要库

我们还需要一些用于图像处理、可视化和模型辅助的库。

pip install opencv-python matplotlib pillow numpy jupyterlab # opencv-python: 强大的计算机视觉库 # matplotlib: 绘图库，用于显示图像和结果 # pillow: Python图像处理库 # numpy: 科学计算基础库 # jupyterlab: 交互式笔记本，方便边写边看（可选但推荐）

3.5 验证安装

创建一个Python脚本或直接在激活环境的Python解释器中运行以下代码，检查关键库是否安装成功：

import torch import torchvision import cv2 import matplotlib import numpy as np print(f"PyTorch version: {torch.__version__}") print(f"Torchvision version: {torchvision.__version__}") print(f"OpenCV version: {cv2.__version__}") print(f"CUDA available: {torch.cuda.is_available()}") # 如果输出True，恭喜你，GPU可用！

如果所有import都没有报错，并且输出了版本号，那么你的环境就准备好了。

4. 实战一：图像识别（Image Classification）—— 让机器“认物”

图像识别是计算机视觉的入门任务。我们将使用PyTorch自带的预训练模型，对一张图片进行快速分类。

核心思路：加载一个在大型数据集（如ImageNet）上预训练好的模型，将我们的图片输入，得到它属于1000个类别中哪一个的概率。

4.1 准备一张测试图片

你可以从网上下载一张图片，比如一只猫 (cat.jpg)，或者使用以下代码从网上下载示例图片（确保网络连通）。

import urllib.request import os # 下载一张示例图片（金毛犬） url = 'https://upload.wikimedia.org/wikipedia/commons/thumb/2/26/YellowLabradorLooking_new.jpg/320px-YellowLabradorLooking_new.jpg' filename = 'test_dog.jpg' if not os.path.exists(filename): urllib.request.urlretrieve(url, filename) print(f"已下载图片: {filename}") else: print(f"图片已存在: {filename}")

4.2 完整的图像分类代码

创建一个Python文件，例如image_classification.py，写入以下代码：

import torch from torchvision import models, transforms from PIL import Image import matplotlib.pyplot as plt import json import urllib.request # 1. 加载预训练模型和对应的标签 # 使用ResNet50，一个经典且强大的图像分类模型 model = models.resnet50(pretrained=True) model.eval() # 设置为评估模式，关闭dropout等训练专用层 # 下载ImageNet的类别标签文件 labels_url = 'https://raw.githubusercontent.com/anishathalye/imagenet-simple-labels/master/imagenet-simple-labels.json' labels_path = 'imagenet_labels.json' if not os.path.exists(labels_path): urllib.request.urlretrieve(labels_url, labels_path) with open(labels_path) as f: labels = json.load(f) # 2. 定义图像预处理流程 # 预训练模型有固定的输入尺寸和归一化要求，必须遵守 preprocess = transforms.Compose([ transforms.Resize(256), # 将短边缩放到256像素 transforms.CenterCrop(224), # 从中心裁剪出224x224的区域 transforms.ToTensor(), # 转换为Tensor，数值范围[0,1] transforms.Normalize(mean=[0.485, 0.456, 0.406], # ImageNet数据集的标准归一化参数 std=[0.229, 0.224, 0.225]), ]) # 3. 加载并预处理图像 image_path = 'test_dog.jpg' # 替换成你的图片路径 input_image = Image.open(image_path).convert('RGB') # 确保是RGB三通道 # 显示原图 plt.figure(figsize=(8, 6)) plt.subplot(1, 2, 1) plt.imshow(input_image) plt.title('Original Image') plt.axis('off') # 预处理，并增加一个批次维度（batch dimension），因为模型输入是 [batch_size, channels, height, width] input_tensor = preprocess(input_image) input_batch = input_tensor.unsqueeze(0) # 增加维度，变成 [1, 3, 224, 224] # 4. 运行模型进行预测 if torch.cuda.is_available(): input_batch = input_batch.to('cuda') model.to('cuda') with torch.no_grad(): # 禁用梯度计算，推理时节省内存 output = model(input_batch) # 5. 解析结果 # 输出是1000个类别的概率（logits），我们取概率最高的 probabilities = torch.nn.functional.softmax(output[0], dim=0) # 转换为概率 top5_prob, top5_catid = torch.topk(probabilities, 5) # 取前5个最高概率 # 6. 打印并显示结果 print("Top-5 预测结果:") for i in range(top5_prob.size(0)): category_id = top5_catid[i].item() category_name = labels[category_id] probability = top5_prob[i].item() print(f"{i+1}: {category_name:<20} (概率: {probability:.4f})") # 在图中显示预测结果文本 plt.subplot(1, 2, 2) plt.imshow(input_image) plt.title('Prediction Result') plt.axis('off') result_text = f"Top1: {labels[top5_catid[0].item()]}\nProb: {top5_prob[0].item():.3f}" plt.text(10, 250, result_text, color='white', backgroundcolor='red', fontsize=12) plt.tight_layout() plt.show()

4.3 运行与结果

在终端中，确保处于cv_tutorial环境，运行：

python image_classification.py

你会看到终端打印出前5个最可能的类别及其概率，同时弹出一个窗口显示原图和最可能的预测结果。对于金毛犬的图片，模型很可能以很高的概率预测为golden retriever。

关键点解析：

model.eval()：至关重要！它将模型设置为推理模式，固定了BatchNorm和Dropout层的行为。
transforms.Normalize：使用ImageNet数据集的均值和标准差进行归一化，这是预训练模型的要求。
with torch.no_grad()：在推理时关闭自动求导，大幅减少内存消耗并加速。
torch.nn.functional.softmax：将模型的原始输出（logits）转换为概率值，所有类别概率之和为1。

5. 实战二：目标检测（Object Detection）—— 让机器“定位”

目标检测不仅要识别物体，还要找到它的位置。我们将使用一个更现代、速度更快的模型：YOLOv5。虽然PyTorch官方不直接包含YOLO，但有一个非常活跃且易用的开源实现。

5.1 安装YOLOv5

YOLOv5通过PyPI即可安装，非常方便。

pip install yolov5

注意：这可能会安装一些依赖，如果遇到权限问题，可以尝试在命令后加--user。

5.2 使用YOLOv5进行目标检测

创建一个新文件object_detection.py：

import yolov5 import cv2 import matplotlib.pyplot as plt from PIL import Image import torch # 1. 加载预训练模型 # 这里加载的是YOLOv5s模型，它是YOLOv5系列中较小、较快的一个，精度尚可，适合快速演示。 # 其他可选模型：'yolov5m', 'yolov5l', 'yolov5x' (更大，更准，更慢) model = yolov5.load('yolov5s.pt') # 首次运行会自动从GitHub下载模型文件 # 设置模型参数 model.conf = 0.25 # 置信度阈值 (0-1)，高于此值的检测结果才会被保留 model.iou = 0.45 # 非极大值抑制的IoU阈值，用于去除重叠框 model.agnostic = False # 是否进行类别无关的NMS model.multi_label = False # 每个框是否允许有多个标签 model.max_det = 1000 # 每张图最大检测数量 # 2. 加载图像 img_path = 'test_dog.jpg' # 可以使用上一节的图片，或者换一张包含多物体的图 img = Image.open(img_path).convert('RGB') # 3. 执行推理 results = model(img, size=640) # size参数表示将图像缩放到长边为640像素进行推理 # 4. 解析结果 predictions = results.pred[0] # 获取第一张图的预测结果 boxes = predictions[:, :4] # 边界框 [x1, y1, x2, y2] scores = predictions[:, 4] # 置信度 categories = predictions[:, 5] # 类别索引 # 5. 打印检测到的物体 print(f"检测到 {len(boxes)} 个物体:") for i, (box, score, category) in enumerate(zip(boxes, scores, categories)): class_name = results.names[int(category)] # 获取类别名称 print(f" 物体 {i+1}: {class_name} (置信度: {score:.2f}), 位置: {box.tolist()}") # 6. 可视化结果 # YOLOv5内置了渲染功能，可以直接生成带框的图片 results.render() # 在原图上绘制检测框和标签 # 将渲染后的PIL图像转换为数组以便matplotlib显示 rendered_img = Image.fromarray(results.ims[0]) # 显示结果 plt.figure(figsize=(12, 6)) plt.subplot(1, 2, 1) plt.imshow(img) plt.title('Original Image') plt.axis('off') plt.subplot(1, 2, 2) plt.imshow(rendered_img) plt.title('YOLOv5 Detection Results') plt.axis('off') plt.tight_layout() plt.show() # 7. 保存结果图片（可选） output_path = 'detection_result.jpg' results.save(save_dir='./') # 保存到当前目录，默认文件名 print(f"检测结果已保存至: {output_path}")

5.3 运行与结果

运行脚本：

python object_detection.py

你会看到终端打印出检测到的物体数量、类别、置信度和坐标。同时，图像窗口会显示两张图：原图和用矩形框标出所有检测物体的结果图。对于一张包含狗和人的图片，YOLOv5可以同时框出“person”和“dog”。

YOLO的核心思想：You Only Look Once。与传统方法（如R-CNN系列）需要先提取候选区域再分类不同，YOLO将整个检测问题视为一个回归问题，直接在单次网络前向传播中预测边界框和类别概率，因此速度极快，适合实时应用。

6. 实战三：图像分割（Semantic Segmentation）—— 让机器“理解像素”

语义分割为每个像素分配一个类别标签。我们将使用一个在PASCAL VOC数据集上预训练的DeepLabV3模型，它可以分割出人、动物、交通工具、家具等20个常见类别。

6.1 使用Torchvision的预训练分割模型

PyTorch的Torchvision库提供了现成的模型。创建一个新文件semantic_segmentation.py：

import torch import torchvision.transforms as T from torchvision import models import numpy as np from PIL import Image import matplotlib.pyplot as plt import cv2 # 1. 加载预训练的DeepLabV3模型（使用ResNet101作为骨干网络） model = models.segmentation.deeplabv3_resnet101(pretrained=True) model.eval() # 2. 定义预处理和后处理函数 # 预处理：与分类类似，但归一化参数相同，且不需要中心裁剪到固定尺寸，通常保持长宽比缩放 def preprocess(image): transform = T.Compose([ T.ToTensor(), # 转换为Tensor并归一化到[0,1] T.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), ]) return transform(image).unsqueeze(0) # 增加batch维度 # 后处理：将模型输出的分割图（每个像素的类别索引）转换为可视化的彩色图像 def decode_segmap(image, nc=21): # PASCAL VOC数据集有20个类别+背景，共21类 # 为每个类别分配一个RGB颜色 label_colors = np.array([(0, 0, 0), # 0=背景 (128, 0, 0), (0, 128, 0), (128, 128, 0), (0, 0, 128), (128, 0, 128), (0, 128, 128), (128, 128, 128), (64, 0, 0), (192, 0, 0), (64, 128, 0), (192, 128, 0), (64, 0, 128), (192, 0, 128), (64, 128, 128), (192, 128, 128), (0, 64, 0), (128, 64, 0), (0, 192, 0), (128, 192, 0), (0, 64, 128)]) r = np.zeros_like(image).astype(np.uint8) g = np.zeros_like(image).astype(np.uint8) b = np.zeros_like(image).astype(np.uint8) for l in range(0, nc): idx = image == l r[idx] = label_colors[l, 0] g[idx] = label_colors[l, 1] b[idx] = label_colors[l, 2] rgb = np.stack([r, g, b], axis=2) return rgb # 3. 加载并预处理图像 # 这里我们使用一张包含人和城市的图片，可以从网上下载 seg_test_url = 'https://images.unsplash.com/photo-1507003211169-0a1dd7228f2d?ixlib=rb-4.0.3&auto=format&fit=crop&w=600&q=80' seg_filename = 'seg_test_person.jpg' # 使用之前的方法下载图片，这里省略下载代码，假设图片已存在 # 如果不存在，请用urllib下载 image = Image.open(seg_filename).convert('RGB') input_tensor = preprocess(image) # 4. 执行推理 with torch.no_grad(): output = model(input_tensor)['out'][0] # DeepLabV3的输出是一个字典，取'out'键 output_predictions = output.argmax(0).byte().cpu().numpy() # 获取每个像素预测的类别索引 # 5. 将分割结果转换为彩色图 segmentation_rgb = decode_segmap(output_predictions) # 6. 可视化：原图、分割彩色图、叠加图 plt.figure(figsize=(18, 6)) # 原图 plt.subplot(1, 3, 1) plt.imshow(image) plt.title('Original Image') plt.axis('off') # 分割彩色图 plt.subplot(1, 3, 2) plt.imshow(segmentation_rgb) plt.title('Semantic Segmentation Map') plt.axis('off') # 将分割图以半透明方式叠加到原图上 overlay = cv2.addWeighted(np.array(image), 0.6, segmentation_rgb, 0.4, 0) plt.subplot(1, 3, 3) plt.imshow(overlay) plt.title('Overlay (Original + Segmentation)') plt.axis('off') plt.tight_layout() plt.show() # 打印检测到的类别（可选） unique_classes = np.unique(output_predictions) print(f"分割图中出现的类别索引: {unique_classes}") # 你可以创建一个索引到类别名称的映射来查看具体是什么 voc_classes = ['background', 'aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus', 'car', 'cat', 'chair', 'cow', 'diningtable', 'dog', 'horse', 'motorbike', 'person', 'pottedplant', 'sheep', 'sofa', 'train', 'tvmonitor'] for cls in unique_classes: print(f" 类别 {cls}: {voc_classes[cls]}")

6.2 运行与结果

运行脚本：

python semantic_segmentation.py

你会看到三张图：原图、纯分割彩色图、以及分割结果半透明叠加在原图上的效果。不同的颜色块代表了不同的语义类别（如人、天空、建筑等）。模型成功地将“人”从背景中分割了出来。

语义分割的价值：它提供了像素级的理解。对于自动驾驶，这意味着一辆车不仅能“看到”前方有物体，还能精确知道哪些像素是道路、哪些是行人、哪些是绿化带，从而做出更安全的决策。

7. 运行结果与效果验证

运行上述三个脚本后，你应该能直观地看到计算机视觉三大任务的不同输出：

图像分类：输出一个或几个概率最高的标签。
目标检测：输出若干个带类别和矩形框的物体。
语义分割：输出一张与输入同尺寸的彩色掩码图，每个颜色代表一个类别。

如何验证模型运行正确？

图像分类：找一张特征明显的常见物体（猫、狗、汽车）图片，看Top-1预测是否符合常识。可以尝试换一张模棱两可的图，观察Top-5结果。
目标检测：使用包含多个、不同大小物体的复杂场景图片。观察YOLOv5是否能正确框出所有主要物体，并检查置信度。可以调整model.conf参数，感受阈值变化对结果的影响（阈值调高，检测框变少但更可靠；阈值调低，检测框变多但可能包含误检）。
语义分割：观察分割边界是否清晰，是否将不同类别的物体正确区分开。例如，人和背景是否被分开，天空和建筑是否有明显的分界线。

如果运行失败，请按以下顺序排查：

依赖问题：确认是否在正确的Conda环境 (cv_tutorial) 中运行，并使用pip list检查torch,torchvision,yolov5,opencv-python等包是否已安装。
CUDA问题：如果安装了GPU版本的PyTorch但torch.cuda.is_available()返回False，请检查CUDA和显卡驱动是否正确安装。
模型下载失败：YOLOv5和DeepLabV3预训练模型首次运行时会从网络下载。请确保网络通畅，或手动下载模型文件放到指定位置。
图片路径错误：确保代码中的图片路径正确，图片文件存在且可读。

8. 常见问题与排查思路

在学习和实践过程中，你一定会遇到各种问题。下表汇总了典型问题及其解决方法：

问题现象	可能原因	排查方式	解决方案
`ImportError`或`ModuleNotFoundError`	1. 包未安装。 2. 不在正确的Python环境中。 3. 包名拼写错误。	1. 在终端输入`pip list`查看已安装包。 2. 检查命令行提示符前是否有`(cv_tutorial)`。 3. 核对`import`语句。	1. 在正确环境中使用`pip install`安装缺失包。 2. 使用`conda activate cv_tutorial`激活环境。 3. 修正拼写。
运行代码时卡住或下载模型极慢	1. 网络连接问题。 2. 首次运行需要下载大型预训练模型。	1. 检查网络。 2. 观察控制台输出，看是否卡在下载环节。	1. 使用稳定的网络，或配置镜像源。 2. 对于PyTorch模型，可尝试手动下载`.pth`文件并放到`~/.cache/torch/hub/checkpoints/`目录下。
GPU可用但代码仍在CPU上运行	1. 未将模型和数据显式转移到GPU。 2. 安装的是PyTorch CPU版本。	1. 检查代码中是否有`.to(‘cuda’)`或`.to(device)`语句。 2. 运行`print(torch.cuda.is_available())`。	1. 确保在模型和数据操作后调用`.to(device)`，其中`device = torch.device(‘cuda’ if torch.cuda.is_available() else ‘cpu’)`。 2. 重新安装GPU版本的PyTorch。
目标检测/分割结果很差或没有框	1. 图片内容不在模型训练数据分布内（太奇怪）。 2. 置信度阈值 (`conf`) 设置过高。 3. 图片预处理（缩放）导致目标太小。	1. 换一张包含常见物体（人、车、动物）的清晰图片测试。 2. 逐步调低`model.conf`（如从0.25调到0.1）。 3. 检查原图中目标尺寸。	1. 使用更通用、更高质量的图片。 2. 根据应用场景调整置信度和IoU阈值。 3. 对于小目标检测，可以考虑使用专门优化小目标的模型或方法（如YOLOX的Tiled Training）。
内存不足 (OOM Error)	1. 输入图片分辨率过高。 2. 批量大小 (batch size) 太大。 3. GPU显存不足。	1. 查看错误信息中提示的Tensor尺寸。 2. 监控任务管理器的内存/显存使用情况。	1. 在预处理中缩小图片尺寸（如YOLO的`size=640`）。 2. 将批量大小设为1。 3. 在CPU上运行，或使用更小的模型（如YOLOv5s而非YOLOv5x）。
语义分割结果边界粗糙	这是模型本身的局限性，尤其是DeepLabV3在物体边界处可能不精确。	对比原图和分割图，观察哪些边界有问题。	1. 使用更先进的模型，如DeepLabV3+或HRNet。 2. 进行后处理，如条件随机场 (CRF) 平滑。 3. 这通常是精度与速度的权衡，需根据应用选择。

9. 最佳实践与工程建议

当你成功跑通示例后，如果想将其应用到真实项目或进行更深入的学习，以下建议能帮你少走弯路：

数据是王道：模型表现的好坏，70%取决于数据。确保你的训练数据质量高、标注准确、且分布与真实应用场景一致。对于目标检测和分割，标注工作非常耗时，但至关重要。
理解你的任务：在开始前，务必明确你要解决的是分类、检测还是分割问题？或者是它们的组合？选择错误的模型会事倍功半。
从预训练模型开始：除非你有海量数据和计算资源，否则永远从在大型数据集（如ImageNet, COCO）上预训练的模型开始，进行微调 (Fine-tuning)。这是深度学习应用的标准流程，能极大缩短训练时间并提升性能。
环境隔离与复现：始终使用conda或venv管理环境，并用requirements.txt或environment.yml记录所有依赖的精确版本。这是团队协作和项目复现的基石。
版本控制：使用Git管理你的代码、配置和实验记录。对模型、超参数、数据增强策略的任何改动都应进行记录和版本控制。
循序渐进：不要一开始就追求最复杂的模型。先用一个简单的基准模型（如YOLOv5s, ResNet18）跑通整个流程（数据加载、训练、验证、测试），再逐步尝试更大更复杂的模型。
关注评估指标：
- 分类：准确率 (Accuracy)、精确率 (Precision)、召回率 (Recall)、F1分数。
- 检测：平均精度 (mAP)，尤其是mAP@0.5:0.95。
- 分割：平均交并比 (mIoU)。不要只看损失函数下降，要在独立的验证集上监控这些指标。
可视化是关键：定期可视化模型的预测结果、注意力图、特征图等。这能帮你直观理解模型在哪里成功，在哪里失败，从而指导调优方向。
考虑部署：如果最终要上线，需要考虑模型大小、推理速度、硬件资源（CPU/GPU/边缘设备）。这时可能需要模型压缩（如剪枝、量化）、转换（如PyTorch -> ONNX -> TensorRT）等技术。

10. 总结与后续学习方向

通过本文，你已经完成了计算机视觉入门最关键的一步：在本地环境成功运行了三大核心任务的完整代码。你不再只是听说这些概念，而是亲眼看到了它们如何工作。

我们回顾一下核心收获：

搭建了一个可靠的深度学习环境，这是所有后续工作的基础。
厘清了图像分类、目标检测、语义分割的核心区别与联系，知道了何时该用什么工具。
亲手运行了三个经典模型：用ResNet做分类，用YOLOv5做检测，用DeepLabV3做分割，并理解了代码的基本流程。

接下来，你可以沿着这些方向深入：

深入理论：学习CNN、R-CNN、YOLO、U-Net等经典网络的结构与原理。推荐阅读《深度学习》花书、CS231n等经典课程。
动手训练：尝试在自己的数据集上微调预训练模型。从PyTorch官方教程和torchvision.datasets开始，学习如何加载自定义数据、定义损失函数、设置优化器、进行训练循环。
探索新架构：了解Transformer在视觉领域的应用（如Vision Transformer, Swin Transformer），以及更高效的检测分割模型（如DETR, Mask2Former）。
转向实战项目：尝试一些有趣的项目，如：
- 用目标检测做一个“桌面宠物检测器”。
- 用语义分割对街景图片进行“天空替换”。
- 结合OpenCV和这些模型，做一个简单的视频实时分析应用。
关注工具链：学习使用LabelImg、LabelMe、CVAT等工具进行数据标注；学习使用Weights & Biases、TensorBoard进行实验跟踪和可视化；学习使用ONNX Runtime、TensorRT或OpenVINO进行模型部署和加速。

计算机视觉是一片广阔而有趣的海洋。本文为你造好了船，划起了第一桨。真正的风景，需要你亲自扬帆去探索。建议收藏本文，在后续实践中遇到问题时，可以随时回来查阅环境配置和基础代码。

🚀 30+款热门AI模型一站整合，DeepSeek/GLM/Claude 随心用，限时 5 折。 👉 点击领海量免费额度

编程学习技术分享实战经验

资讯详情

零基础入门计算机视觉：从环境搭建到图像识别、目标检测与分割实战

1. 这篇文章真正要解决的问题

2. 基础概念与核心原理：用“看图说话”来理解

3. 环境准备与前置条件

3.1 安装Anaconda

3.2 创建并激活虚拟环境

3.3 安装核心深度学习框架：PyTorch

3.4 安装其他必要库

3.5 验证安装

4. 实战一：图像识别（Image Classification）—— 让机器“认物”

4.1 准备一张测试图片

4.2 完整的图像分类代码

4.3 运行与结果

5. 实战二：目标检测（Object Detection）—— 让机器“定位”

5.1 安装YOLOv5

5.2 使用YOLOv5进行目标检测

5.3 运行与结果

6. 实战三：图像分割（Semantic Segmentation）—— 让机器“理解像素”

6.1 使用Torchvision的预训练分割模型

6.2 运行与结果

7. 运行结果与效果验证

8. 常见问题与排查思路

9. 最佳实践与工程建议

10. 总结与后续学习方向

最新新闻

日新闻

周新闻

月新闻

资讯详情

零基础入门计算机视觉：从环境搭建到图像识别、目标检测与分割实战

1. 这篇文章真正要解决的问题

2. 基础概念与核心原理：用“看图说话”来理解

3. 环境准备与前置条件

3.1 安装Anaconda

3.2 创建并激活虚拟环境

3.3 安装核心深度学习框架：PyTorch

3.4 安装其他必要库

3.5 验证安装

4. 实战一：图像识别（Image Classification）—— 让机器“认物”

4.1 准备一张测试图片

4.2 完整的图像分类代码

4.3 运行与结果

5. 实战二：目标检测（Object Detection）—— 让机器“定位”

5.1 安装YOLOv5

5.2 使用YOLOv5进行目标检测

5.3 运行与结果

6. 实战三：图像分割（Semantic Segmentation）—— 让机器“理解像素”

6.1 使用Torchvision的预训练分割模型

6.2 运行与结果

7. 运行结果与效果验证

8. 常见问题与排查思路

9. 最佳实践与工程建议

10. 总结与后续学习方向

相关新闻

最新新闻

日新闻

周新闻

月新闻