【TensorFlow深度学习】加载经典数据集MNIST的实战步骤

加载经典数据集MNIST的实战步骤

      • 1. 数据集概览
      • 2. 自动加载MNIST数据集
      • 3. 数据预处理
      • 4. 转换为TensorFlow Dataset对象
      • 5. 数据集的随机打散与批量处理
      • 6. 数据预处理函数的应用
      • 结语

在深度学习的实践中,加载经典数据集是入门及进阶学习不可或缺的一环。MNIST数据集作为图像识别领域的“Hello World”,因其简单、直观且结构化的特点,成为了许多初学者学习深度学习算法的首选数据集。本文将以TensorFlow 2.0环境为背景,详细介绍加载MNIST数据集的实战步骤,包括数据集的自动下载、数据预处理、转换为TensorFlow Dataset对象以及数据的批量处理和随机打散等关键环节。

1. 数据集概览

MNIST数据集包含60,000个训练样本和10,000个测试样本,每个样本是一张28x28像素的手写数字图片,共有10个类别(0-9)。这些图片以灰度形式存储,像素值范围从0到255。数据集还附带了对应的标签,用来指示每个图片代表的数字。

2. 自动加载MNIST数据集

TensorFlow通过Keras API提供了加载MNIST数据集的简便方法。以下代码展示了如何自动下载和加载MNIST数据集:

import tensorflow as tf
from tensorflow.keras import datasets

(x_train, y_train), (x_test, y_test) = datasets.mnist.load_data()

这段代码首先导入必要的库,然后调用mnist.load_data()函数,该函数会自动检查本地是否存在数据集,如果不存在,则从远程服务器下载并解压到.keras/datasets目录下。数据集加载后,会返回两个元组,分别对应训练集和测试集,其中x_trainx_test为图像数据,y_trainy_test为对应的标签。

3. 数据预处理

原始数据通常需要经过预处理才能输入到神经网络中。对于MNIST数据集,预处理主要包括归一化和数据形状调整。

x_train, x_test = x_train / 255.0, x_test / 255.0

这段代码将图像数据的像素值归一化到[0,1]区间,这对于神经网络的训练是非常有益的,因为它可以提高训练速度并减少过拟合的风险。

4. 转换为TensorFlow Dataset对象

为了充分利用TensorFlow的高效数据处理能力,我们需要将数据转换为tf.data.Dataset对象。这不仅便于实现多线程读取、数据随机化等操作,还能与TensorFlow的训练流程无缝对接。

train_db = tf.data.Dataset.from_tensor_slices((x_train, y_train))
test_db = tf.data.Dataset.from_tensor_slices((x_test, y_test))

5. 数据集的随机打散与批量处理

在训练神经网络时,为了避免模型因为数据的顺序性而产生过拟合,通常会对训练数据进行随机打散处理。同时,为了高效利用GPU,我们会采用批量(batch)训练的方式。

BUFFER_SIZE = 10000
BATCH_SIZE = 128

train_db = train_db.shuffle(BUFFER_SIZE).batch(BATCH_SIZE)
test_db = test_db.batch(BATCH_SIZE)

这里,shuffle(BUFFER_SIZE)用于随机打乱数据顺序,batch(BATCH_SIZE)则将数据分组,每组包含BATCH_SIZE个样本。

6. 数据预处理函数的应用

对于更复杂的预处理需求,比如对图像进行额外的处理或对标签进行one-hot编码,可以定义自定义的预处理函数并通过map方法应用到数据集中。

def preprocess(image, label):
    image = tf.cast(image, tf.float32) / 255.0
    image = tf.reshape(image, [-1, 28*28])
    label = tf.one_hot(label, depth=10)
    return image, label

train_db = train_db.map(preprocess).batch(BATCH_SIZE)
test_db = test_db.map(preprocess).batch(BATCH_SIZE)

这段代码中,preprocess函数实现了图像的归一化、形状调整以及标签的one-hot编码。通过map函数应用到数据集上,确保每个样本在训练前都经过了统一的预处理。

结语

通过上述步骤,成功地加载了MNIST数据集,进行了必要的数据预处理,并将其转换为适合深度学习训练的tf.data.Dataset对象。这些准备工作为后续的模型搭建和训练奠定了坚实的基础。实践证明,良好的数据准备是深度学习项目成功的关键。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/598565.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

跨境电商日报:虾皮开设新物流中心;Tk Shop菲律宾调整佣金费率

2024年5月7日跨境电商日报目录: 1.Shopee开设新物流中心; 2.TikTok Shop菲律宾站调整佣金费率; 3.野莓海外仓卖家可以销售9公斤以上商品; 4.亚马逊一季度净销售额同比增长13%; 5.巴西对华二氧化钛启动反倾销调查 …

AI原生实践:测试用例创作探索

测试用例作为质量保障的核心,影响着研发-测试-发布-上线的全过程,如单元测试用例、手工测试用例、接口自动化用例、UI 自动化用例等,但用例撰写的高成本尤其是自动化用例,导致了用例的可持续积累、更新和迭代受到非常大制约。长久…

如何利用工作流自定义一个AI智能体

选择平台 目前已经有不少大模型平台都提供自定义智能体的功能,比如 百度的文心 https://agents.baidu.com/ 阿里的百炼平台 https://bailian.console.aliyun.com/。 今天再来介绍一个平台扣子(https://www.coze.cn/),扣子是…

被忽略的C语言堆栈内存编程细节

没想到,评论区的一个提问,成了我知识的裂缝。🤣 前段时间解决了自己代码中的一个关于栈内存问题,便班门弄斧的写了一篇文章栈内存文章,没想到发出来很快便被大佬发现了其中一个问题🤣,在评论区里…

程序员的神器指南!揭秘软件开发必备工具

在软件开发的广袤海洋中,程序员们像是驾驶着帆船探索未知的航海者。他们面对的不仅仅是代码的挑战,还有项目管理、协作沟通和时间限制的压力。为了应对这些挑战,程序员们需要一系列强大的工具,就像是海中的指南针,帮助…

项目又延期了,怎么办?

Ada问:负责的几个版本上线都延期了,在测试环境出了问题,改过再测上线后,还是出问题。身为产品经理,很困惑,项目不断延期,又被打脸。怎么办? 学姐回答: 经理每天都是忙着…

mac安装linux的centos strem9 虚拟机解压rar文件报错

背景:解压rar文件需要再linux上安装unrar工具 yum install unrar直接安装的后解压报错,如图 解决办法: 下载:wget https://www.rarlab.com/rar/rarlinux-x64-6.0.2.tar.gz 安装: tar -zxvf rarlinux-x64-6.0.2.tar.gz cd rar …

C语言例题35、反向输出字符串(指针方式),例如:输入abcde,输出edcba

#include <stdio.h>void reverse(char *p) {int len 0;while (*p ! \0) { //取得字符串长度p;len;}while (len > 0) { //反向打印到终端printf("%c", *--p);len--;} }int main() {char s[255];printf("请输入一个字符串&#xff1a;");gets(s)…

redis持久化存储

Redis的持久化机制 Redis是一个基于内存的数据库&#xff0c;它的数据是存放在内存中&#xff0c;内存有个问题就是关闭服务或者断电会丢失。Redis的数据也支持写到硬盘中&#xff0c;这个过程就叫做持久化。 Redis提供如下两种持久化方式 RDB&#xff08;Redis DataBase&am…

外网禅道配置

exportfs -avrf 修改代码&#xff0c;避免启动太慢&#xff1a;vi /opt/zbox/bin/zbox.php 启动和停止 /opt/zbox/zbox start /opt/zbox/zbox stop

如何保护数据安全?迅软DSE加密系统给信息撑把保护伞!

信息安全当然需要保护&#xff0c;不然企业的信息可以发给任何人&#xff0c;普通信息还好&#xff0c;如果是重要机密呢&#xff0c;企业重要信息被发出去后可能会造成一些麻烦&#xff0c;所以可以使用加密系统&#xff0c;对数据进行安全保护&#xff0c;防止泄密问题&#…

一次 K8s Pod 频繁被“驱逐”,结果竟是这样的?

问题描述 某天下午运维反馈说我们这一个pod一天重启了8次&#xff0c;需要排查下原因。一看 Kibana 日志&#xff0c;jvm 没有抛出过任何错误&#xff0c;服务就直接重启了。显然是进程被直接杀了&#xff0c;初步判断是 pod 达到内存上限被 K8s oomkill 了。 Containers: c…

学习软考----数据库系统工程师22

关系运算 基本的关系代数运算 拓展的关系运算 除&#xff1a;需要S连接中属性为C和D的两个元组都与R连接一样&#xff0c;且在R连接中对应的另外的元素完全一致 总结

VBA在Excel中注册登录界面的应用

Excel工作表也可以做一个小程序,登录注册后可以访问或修改。为了简便,没有做复杂的控件,能说明问题就行。可以根据需要添加更多的判断条件,控制注册和访问人数。本次操作对注册没有任何限制,只要注册后就可以根据注册的账号和密码进行访问和修改。注册登录界面截图: 操作…

【数据结构】 顺序表专题

目录 1.顺序表的概念及结构 1.1线性表 1.2顺序表 2.顺序表的分类 2.1静态顺序表 2.2动态顺序表 1.顺序表的概念及结构 1.1线性表 线性表&#xff08;Linear List&#xff09;是数据结构中的一种基本结构&#xff0c;它是一个具有n个数据元素的有限序列。线性表的特点是数…

速卖通新卖家测评攻略:从入门到精通

在电商行业中&#xff0c;测评被广泛认为是提升产品转化率和销量的有效手段。对于速卖通的卖家而言&#xff0c;测评的必要性更是显而易见。测评&#xff0c;本质上与国内电商的补单行为相似&#xff0c;是一种通过增加销量来提升产品权重的方法。 特别是在竞争激烈的类目中&a…

Colibri for Mac v2.2.0 原生无损音频播放器 激活版

Colibri支持所有流行的无损和有损音频格式的完美清晰的比特完美播放&#xff0c;仅使用微小的计算能力&#xff0c;并提供干净和直观的用户体验。 Colibri在播放音乐时使用极少的计算能力。该应用程序使用最先进的Swift 3编程语言构建&#xff0c;BASS音频引擎作为机器代码捆绑…

VS code ESP-IDF 提示“loading ‘build.ninja‘: 系统找不到指定的文件” 的解决方案

最近在搞esp32&#xff0c;使用VS code进行开发&#xff0c;但是当把别人的工程直接导进去的时候编译报错找不到文件&#xff1a; 但是在之前明明已经新建工程成功了&#xff0c;那应该是缺少某些文件吧。在网上找到一种方法就是将文件拷贝到之前新建的文件里面&#xff0c;确…

Wish、Newegg、Allegro卖家如何做测评补单 快速提升产品权重与销量

大部分主流平台卖家都会使用测评补单来增加产品权重、提高销量。经常会有一些平台的卖家咨询我其他平台能否像亚马逊一样通过测评补单来提升曝光。 其实大部分跨境电商都是可以通过补单来增加店铺权重提升产品排名。其实亚马逊相对来说风控是最严的&#xff0c;风控点多达几十…
最新文章