(动手学习深度学习)第13章 实战kaggle竞赛:树叶分类

文章目录

  • 实战kaggle比赛:树叶分类
      • 1. 导入相关库
      • 2. 查看数据格式
      • 3. 制作数据集
      • 4. 数据可视化
      • 5. 定义网络模型
      • 6. 定义超参数
      • 7. 训练模型
      • 8. 测试并提交文件
  • 竞赛技术总结
      • 1. 技术分析
      • 2. 数据方面
      • 模型方面
      • 3. AutoGluon
      • 4. 总结

实战kaggle比赛:树叶分类

kaggle竞赛链接

数据集格式如下

  • image文件夹:27153张叶子图片,编号为: 0到27152
  • sample_submission.csv(提交文件): 有8800个样本(18353到27152),2列(图片名称、预测类别)
  • test.csv(测试文件):有8800个样本(18353到27152),1列(图片名称)
  • train.csv(训练文件): 有18353个样本(0到18352),2列(图片名称,所属类别)

解题思路

  • 首先数据集是打乱随机分布,要通过train.csv将iamge的所有图片按照不同类别分配所属的文件夹
  • 然后数据增强、设计模型、训练模型

1. 导入相关库

import torch
import torch.nn as nn
import pandas as pd
import numpy as np
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms
from PIL import Image
import os
import matplotlib.pyplot as plt
import torchvision.models as models
# 下面时用来画图和显示进度条的两个库
from tqdm import tqdm  # 一个用于迭代过程中显示进度条的工具库
import seaborn as sns  # 在matplotlib基础上面的封装库,方便直接传参数调用

2. 查看数据格式

# 查看label文件格式
labels_dataframe = pd.read_csv("E:\\219\\22chenxiaoda\\experiment\\pythonProject\\data\\classify-leaves\\classify-leaves/train.csv")
labels_dataframe.head()

在这里插入图片描述

# 查看labels摘要:数值列的统计汇总信息
labels_dataframe.describe()

在这里插入图片描述
可视化数据集不同类别的样本数

# 用横向柱状图可视化不同类别中图片个数
def barw(ax):
    for p in ax.patches:
        val = p.get_width()  # 柱状图的高度即种类钟图片的数量
        x = p.get_x() + p.get_width()  # x位置
        y = p.get_y() + p.get_height()  # y位置
        ax.annotate(round(val, 2), (x, y))  # 注释文本的内容,被注释的坐标点
plt.figure(figsize=(15, 30))
# sns.countplot()函数: 以bar的形式展示每个类别的数量
ax0 = sns.countplot(y=labels_dataframe['label'], order=labels_dataframe['label'].value_counts().index)
barw(ax0)
plt.show()

在这里插入图片描述
将176个英文类别转换成对应的数据标签,方便训练。

# 将label文件排序
# set():函数创建一个无序不重复元素集
# list():创建列表
# sorted():返回一个排序后的新序列,不改变原始序列(默认按照字母升序)
leaves_labels = sorted(list(set(labels_dataframe['label'])))
n_classes = len(leaves_labels)
print(n_classes)
leaves_labels[:5]

在这里插入图片描述

# 将label文件排序
# set():函数创建一个无序不重复元素集
# list():创建列表
# sorted():返回一个排序后的新序列,不改变原始序列(默认按照字母升序)
leaves_labels = sorted(list(set(labels_dataframe['label'])))
n_classes = len(leaves_labels)
print(n_classes)
leaves_labels[:5]

在这里插入图片描述
再将数字转换成对应的标签:方便最后预测的时候应用

# 再将数字转换成对应的标签:方便最后预测的时候应用
num_to_class = {v : k for k,v in class_to_num.items()}
num_to_class

3. 制作数据集

# 继承pytorch的dataset,创建自己的
class LeavesData(DataLoader):
    def __init__(self, csv_path, file_path, mode='train', valid_ratio=0.2, resize_height=256, resize_with=256):
        """
        :param csv_path: csv文件路径
        :param file_path: 图像文件所在路径
        :param valid_ratio: 验证集比例
        :param resize_height:
        :param resize_with:
        """
        self.resize_height = resize_height
        self.resize_weight = resize_with
        self.file_path = file_path
        self.mode = mode

        # 读取csv文件
        # 利用pandas读取csv文件
        # pandas.read_csv(“data.csv”)默认情况下,会把数据内容的第一行默认为字段名标题。
        # 添加“header=None”,告诉函数,我们读取的原始文件数据没有列索引。因此,read_csv为自动加上列索引。
        # self.data_info = pd.read_csv(csv_path, header=None)
        self.data_info = pd.read_csv(csv_path)
        # 计算length
        self.data_len = len(self.data_info.index)
        self.train_len = int(self.data_len * (1 - valid_ratio))

        if mode == 'train':
            # 第一列包含图像文件的名称
            # 数据源是ndarray时,array仍然会copy出一个副本,占用新的内存,但asarray不会。
            self.train_image = np.asarray(self.data_info.iloc[0: self.train_len, 0])
            self.train_label = np.asarray(self.data_info.iloc[0:self.train_len, 1])
            self.image_arr = self.train_image
            self.label_arr = self.train_label
        elif mode == 'valid':
            self.valid_image = np.asarray(self.data_info.iloc[self.train_len:, 0])
            self.valid_label = np.asarray(self.data_info.iloc[self.train_len:, 1])
            self.image_arr = self.valid_image
            self.label_arr = self.valid_label
        elif mode == 'test':
            self.test_image = np.asarray(self.data_info.iloc[0:, 0])
            self.image_arr = self.test_image

        self.real_len = len(self.image_arr)


        print(f' Finished reading the {mode} set of Leaves Dataset ({self.real_len} samples found)')

    def __getitem__(self, index):
        # 从image_arr中得到索引对应的文件名
        single_image_name = self.image_arr[index]

        # 读取图像文件
        img_as_img = Image.open(self.file_path + single_image_name)

        # 设置好需要转换的变量, 还包括一系列的normalize等操作
        if self.mode == 'train':
            transform = transforms.Compose([
                transforms.Resize(224),
                transforms.RandomHorizontalFlip(),
                transforms.ToTensor(),
                transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
            ])
        else:
            transform = transforms.Compose([
                transforms.Resize(224),
                transforms.CenterCrop(224),
                transforms.ToTensor(),
                transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
            ])
        img_as_img = transform(img_as_img)

        if self.mode == 'test':
            return img_as_img
        else:
            # 得到train和valid的字符串label
            label = self.label_arr[index]
            # 字符串label-->数字label
            number_label = class_to_num[label]

            return img_as_img, number_label   # 返回每一个index对应的照片数据和对应的label

    def __len__(self):
        return self.real_len
train_path = "E:\\219\\22chenxiaoda\\experiment\\pythonProject\\data\\classify-leaves\\classify-leaves/train.csv"
test_path = "E:\\219\\22chenxiaoda\\experiment\\pythonProject\\data\\classify-leaves\\classify-leaves/test.csv"
# csv文件中已经定义到image的路径, 因此这里知道上一级目录
img_path = 'E:\\219\\22chenxiaoda\\experiment\\pythonProject\\data\\classify-leaves\\classify-leaves/'

train_dataset = LeavesData(train_path, img_path, mode='train')
val_dataset = LeavesData(train_path, img_path, mode='valid')
test_dataset = LeavesData(test_path, img_path, mode='test')


print(train_dataset)
print(val_dataset)
print(test_dataset)

在这里插入图片描述

# 定义dataloader
train_loader = torch.utils.data.DataLoader(
    dataset=train_dataset, batch_size=32, shuffle=True
)
val_loader = torch.utils.data.DataLoader(
    dataset=val_dataset, batch_size=32,shuffle=False
)
test_loader = torch.utils.data.DataLoader(
    dataset=test_dataset, batch_size=32, shuffle=False
)

4. 数据可视化

# 展示数据
def im_covert(tensor):
    """展示数据"""
    image = tensor.to("cpu").clone().detach()
    image = image.numpy().squeeze()
    image = image.transpose(1, 2, 0)
    image = image * np.array((0.229, 0.224, 0.225)) + np.array((0.485, 0.456, 0.406))  # 还原标准化,先乘再加
    image = image.clip(0, 1)

    return image

fig = plt.figure(figsize=(20, 12))
columns = 4
rows = 2

dataiter = iter(val_loader)
inputs, classes = dataiter.next()

for idx in range(columns * rows):
    ax = fig.add_subplot(rows, columns, idx+1, xticks=[], yticks=[])
    ax.set_title(num_to_class[int(classes[idx])])
    plt.imshow(im_covert(inputs[idx]))
plt.show()

在这里插入图片描述

5. 定义网络模型

# 是否使用GPU来训练
def get_device():
    return 'cuda' if torch.cuda.is_available() else 'cpu'

device = get_device()
print(device)
# 是否要冻住模型的前面一些层
def set_parameter_requires_grad(model, feature_extracting):
    if feature_extracting:
        model = model
        for param in model.parameters():
            param.requires_grad = False
# 选用resnet34模型
# 是否要冻住模型的前面一些层
def set_parameter_requires_grad(model, feature_extracting):
    if feature_extracting:
        model = model
        for param in model.parameters():
            param.requires_grad = False
# 使用resnet34模型
def res_model(num_classes, feature_extract=False):
    model_ft = models.resnet34(weights=models.ResNet34_Weights.IMAGENET1K_V1)
    set_parameter_requires_grad(model_ft, feature_extract)
    num_ftrs = model_ft.fc.in_features
    model_ft.fc = nn.Linear(num_ftrs, num_classes)

    return model_ft
# 模型初始化
model = res_model(176)
model = model.to(device)
model.device = device
model

6. 定义超参数

learning_rate = 3e-4
weight_decay = 1e-3
num_epoch = 50
model_path = './pre_res_model_32.ckpt'
criterion = nn.CrossEntropyLoss()

不冻住前面的预训练层
- 对预训练层, 使用较小的学习率训练
- 对自定义的分类输出层, 使用较大的学习率

# 对最后定义的全连接层和之前的层采用不同的学习率训练
params_1x = [param for name, param in model.named_parameters()
             if name not in ['fc.weight', 'fc.bias']]
optimizer = torch.optim.Adam(
    # model.parameters(),
    [{'params': params_1x}, {'params': model.fc.parameters(), 'lr': learning_rate * 10}],
    lr=learning_rate, weight_decay=weight_decay
)

7. 训练模型

import time

# 在开头设置开始时间
start = time.perf_counter()  # start = time.clock() python3.8之前可以

best_acc, best_epoch = 0.0, 0
train_loss, train_accs = [], []
valid_loss, valid_accs = [], []

for epoch in range(num_epoch):

    # -----------训练-----------
    model.train()
    train_loss = []
    train_accs = []

    for imgs, labels in tqdm(train_loader):
        #  一个batch由imgs和相应的labels组成。
        imgs = imgs.to(device)
        labels = labels.to(device)
        # 前向传播
        predicts = model(imgs)
        # 计算损失
        loss = criterion(predicts, labels)
        # 梯度清空
        optimizer.zero_grad()
        # 反向传播
        loss.backward()
        # 梯度更新
        optimizer.step()

        # 计算当前batch的精度
        # 转为float就是把true变成1,false变成0;
        # 然后mean就是求这个向量的均值,也就是true的数目除以总样本数,得到acc。
        acc =(predicts.argmax(dim=1) == labels).float().mean()

        # 记录训练损失和精度
        train_loss.append(loss.item())
        train_accs.append(acc)

    # 训练集的平均损失和准确性是一个batch的平均值
    train_loss = sum(train_loss) / len(train_loss)
    train_acc = sum(train_accs) / len(train_accs)

    # 打印训练损失和精度
    print(f'[Train | {epoch + 1 :03d} / {num_epoch:03d}] Train loss = {train_loss:.5f},  Train acc={train_acc:.5f}')

    # --------验证--------
    model.eval()
    valid_loss = []
    valid_accs = []

    for batch in tqdm(val_loader):
        imgs, labels = batch

        # 前向传播
        # 验证不需要计算梯度
        # 使用torch.no_grad()不计算梯度,能加速前向传播过程
        with torch.no_grad():
            predicts = model(imgs.to(device))

        # 计算损失
        loss = criterion(predicts, labels.to(device))
        # 计算精度
        acc = (predicts.argmax(dim=-1) == labels.to(device)).float().mean()

        # 记录验证损失和精度
        valid_loss.append(loss.item())
        valid_accs.append(acc)

    # 跟训练集一样: 验证集的平均损失和准确性是一个batch的平均值
    valid_loss = sum(valid_loss) / len(valid_loss)
    valid_acc = sum(valid_accs) / len(valid_accs)

    # 打印验证损失和精度
    print(f'[Valid | {epoch + 1:03d} / {num_epoch:03d}] loss = {valid_loss:.5f}, acc = {valid_acc:.5f}')

    # 保存迭代过程中最优的模型参数
    if valid_acc > best_acc:
        best_acc = valid_acc
        best_epoch = epoch
        torch.save(model.state_dict(), model_path)
        print(f'Save model with acc{best_acc:.3f}, it is the {epoch} epoch')

print(f'The best model with acc{best_acc:.3f}, it is the {best_epoch} epoch')

# 在程序运行结束的位置添加结束时间
end = time.perf_counter()  # end = time.clock()  python3.8之前可以

# 再将其进行打印,即可显示出程序完成的运行耗时
print(f'运行耗时{(end-start):.4f}')

在这里插入图片描述

8. 测试并提交文件

# 提交文件
saveFileName = './submission32.csv'
# 预测
model = res_model(176)

# 利用前面训练好的模型参数进行预测
model = model.to(device)
model.load_state_dict(torch.load(model_path))

# 模型预测
model.eval()

# 保存预测结果
predictions = []

# 迭代测试集
for batch in tqdm(test_loader):
    imgs = batch
    with torch.no_grad():
        logits = model(imgs.to(device))
    
    # 保存预测结果
    predictions.extend(logits.argmax(dim=-1).cpu().numpy().tolist())

preds = []
for i in predictions:
    # 将数字标签转换为对应的字符串标签
    preds.append(num_to_class[i])

test_data = pd.read_csv(test_path)
test_data['label'] = pd.Series(preds)
submission = pd.concat([test_data['image'], test_data['label']], axis=1)
submission.to_csv(saveFileName, index=False)
print('Done!!!!!') 

在这里插入图片描述

竞赛技术总结

1. 技术分析

相比于课程介绍的代码,大家主要做了下面这些加强

  • 数据增强,在测试时多次使用稍弱的增强然后取平均
  • 使用多个模型预测,最后结果加权平均
    • 有使用10种模型的,也有使用单一模型的
  • 训练算法和学习率
  • 清理数据

2. 数据方面

  • 有重复图片,可以手动去除
  • 图片背景较多,而且树叶没有方向性,可以做更多数据增强
    • 随机旋转、更大的剪裁
  • 跨图片增强:
    • Mixup: 随机叠加两张图片
    • CutMix:随机组合来自不同图片的块

模型方面

  • 模型多为ResNet变种
    • DenseN儿童, ResNeXt, ResNeSt,···
    • EfficientNet
  • 优化算法多为Adam或其变种
  • 学习率一般是Cosine或者训练不动时往下调

3. AutoGluon

  • 15行代码,安装加训练花时100分钟
    • AutoGluon链接
  • 精度96%
    • 可以通过定制化提升精度
    • 下一个版本将搜索更多的模型超参数
    • AG目前主要仍是关注工业界应用上,非比赛

4. 总结

  • 提升精度思路:根据数据挑选增强,使用新模型、新优化算法,多模型融合,测试时使用增强
  • 数据相对简单,排名有相对随机性
  • 在工业界应用中:
    • 少使用模型融合和测试时增强,计算代价过高
    • 通常固定模型超参数,而将精力主要花在提升数据质量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/206399.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据库管理-第119期 记一次迁移和性能优化(202301130)

数据库管理-第119期 记一次迁移和性能优化(202301130) 1 迁移 之前因为DV组件没有迁移成功的那个PDB,后来想着在目标端安装DV组件迁移,结果目标端装不上,而且开了SR也没看出个所以然来。只能换一个方向,尝…

云计算生成式 -给你不一样的音乐推荐新体验

目录 摘要: 正文: 一、亚马逊云与生成式 AI 结合的展望/总结 二、我用亚马逊云科技生成式 AI 产品打造了什么,解决了什么问题 三、未来云端技术发展趋势的见解 四、云端技术未来需要解决的问题 1、如何保护数据安全和隐私? …

虚拟机系列:Oracle VM VirtualBox安装/更新/卸载出现 无法访问你试图使用的功能所在的网络位置

Oracle VM VirtualBox安装/更新/卸载出现 无法访问你试图使用的功能所在的网络位置 Oracle VM VirtualBox安装/更新/卸载出现 无法访问你试图使用的功能所在的网络位置Oracle VM VirtualBox安装/更新/卸载出现 无法访问你试图使用的功能所在的网络位置 在更新Oracle VM Virtua…

STC15-串口通信打印输出数据printf函数与sprintf函数

STC15-串口通信打印输出数据printf函数与sprintf函数 1.打印输出数据有二种printf函数与sprintf函数,不同之处有:(1)函数的声明不同(2)函数的功能不同(3)用法举例 该问题引用百度知道…

【面试HOT200】回溯篇

系列综述: 💞目的:本系列是个人整理为了秋招面试的,整理期间苛求每个知识点,平衡理解简易度与深入程度。 🥰来源:材料主要源于【CodeTopHot300】进行的,每个知识点的修正和深入主要参…

恒驰服务 | 华为云云上运维服务offering

恒驰运维服务主要针对运维要求高或自身运维能力有限的客户,通过服务增购的形式,提供运维服务以协助客户做好云上资源运维管理,规避业务风险,降低运维开销,提升客户业务稳定性。 适用场景: 如何保障业务稳定…

音乐播放器Swinsian mac功能介绍

Swinsian mac是一款音乐播放器,它的特点是轻量级、快速、易用。Swinsian支持多种音频格式,包括MP3、AAC、FLAC、WAV等。它还具有iTunes集成功能,可以自动导入iTunes音乐库中的音乐,并支持智能播放列表、标签编辑、自定义快捷键等功…

ssh连接docker容器处理备忘

1、查看容器ip,记下来之后要用 docker inspect elastic | grep IPAddress 2、使用root进入docker容器 docker exec -it -u root elastic /bin/bash 3、安装openssh #更新apt apt-get update#安装ssh client apt-get install openssh-client#安装ssh server apt-…

Ps:用好钢笔工具

使用钢笔工具时,应随时注意鼠标指针的形状。 ◆ ◆ ◆ 基本操作方法 1、绘制闭合路径 路径绘制结束时回到起点即可创建闭合路径。 2、绘制开放路径 想结束绘制时,按住 Ctrl 键点击画布空白处,或者,直接按 Esc 键,即可…

STM32的看门狗原理和示例代码

看门狗基础: STM32微控制器上的看门狗主要有两种类型:独立看门狗(IWDG)和窗口看门狗(WWDG),这两者都是用于监控系统运行状态的机制,但它们在实现和应用上有一些区别: 独立…

docker buildx跨架构构建笔记(x86_64构建下构建aarch64镜像)

docker buildx跨架构构建(x86_64构建aarch64镜像) 文章目录 docker buildx跨架构构建(x86_64构建aarch64镜像)简介第一步 先交叉编译一个aarch64的HelloWorld程序。准备一个用于跨架构的Dockerfile文件使用docker buildx命令构建aarch64架构的镜像。查看镜像具体详细信息&#…

建堆的时间复杂度和堆排序

文章目录 建堆的时间复杂度向下调整建堆向上调整建堆 堆排序实现 建堆的时间复杂度 下面都以建大堆演示 向下调整建堆 void Adjustdown(HPDataType* a, int size,int parent) {int child parent * 2 1;while (child < size){if (child1<size&&a[child 1] &…

【shell】正则表达式和AWK

一.正则表达式 通配符匹配文件&#xff08;而且是已存在的文件&#xff09; 基本正则表达式扩展正则表达式 可以使用 man 手册帮助 正则表达式&#xff1a;匹配的是文章中的字符 通配符&#xff1a;匹配的是文件名 任意单个字符 1.元字符&#xff08;字符匹配&…

【2023CANN训练营第二季】——Ascend C算子调用及实验演示

自定义算子调用方式 完成自定义算子的开发部署后&#xff0c;可以通过单算子调用的方式来验证单算子的功能。单算子调用有API执行和模型执行两种方式&#xff1a; 单算子API执行&#xff1a;基于C语言的API执行算子&#xff0c;无需提供单算子描述文件进行离线模型的转换&…

IDEA性能优化的相关配置

有时候会发现idea用起来特别卡&#xff0c;你会发现不是整个电脑卡&#xff0c;而是idea用起来卡。这时候就需要对idea做一下性能优化了。 首先我们把idea的内存调出来&#xff1a;可以右击idea底部然后点这个Memory Indicator&#xff0c;然后就能看到idea使用的内存了。 为什…

传统算法:使用 Pygame 实现选择排序

使用 Pygame 模块实现了选择排序的动画演示。首先,它生成一个包含随机整数的数组,并通过 Pygame 在屏幕上绘制这个数组的条形图。接着,通过选择排序算法对数组进行排序,动画效果可视化每一步的排序过程。在排序的过程中,程序找到未排序部分的最小元素,并将其与未排序部分…

wyler水平仪维修WYLER倾角仪维修CH-8405

瑞士WYLER电子水平仪维修&#xff1b;BIueCLINO倾斜度测量仪维修&#xff1b;wyler电子倾角仪维修。 水平仪常见故障及处理方法 1、 仪表通电不工作。 A、检查仪表220V电源端子接线是否正确 B、检查仪表电容是否熔断&#xff1b; C、拧下仪表后的固定螺钉&#xff0c;将表…

群晖NAS配置之搭建WordPress个人博客站点

群晖NAS配置之搭建WordPress个人博客站点 之前写了一些ngrok和frp给群晖nas做内网穿透&#xff0c;今天分享一下在群晖nas下安装wordpress的教程。 WordPress是一个开源的内容管理系统&#xff08;CMS&#xff09;&#xff0c;最初是用来搭建博客的&#xff0c;但后来发展成为…

transformer模型和Multi-Head Attention

参考英文文献&#xff1a; Understanding and Coding the Self-Attention Mechanism of Large Language Models From Scratch Transformer Block 弄懂Transformer Layer 和Transformer Block的关系后&#xff0c;豁然开朗_MengYa_DreamZ的博客-CSDN博客 https://www.tensorf…
最新文章