【Promise12数据集】Promise12数据集介绍和预处理

【Segment Anything Model】做分割的专栏链接,欢迎来学习。
【博主微信】cvxiayixiao
本专栏为公开数据集的介绍和预处理,持续更新中。

要是只想把Promise12数据集的raw形式分割为png形式,快速导航,直接看2,4标题即可
这里只处理了test 换个路径在走一边train就行 是一样的

文章目录

  • 1️⃣Promise12数据集介绍
    • 🌵介绍
    • 🌿临床意义
    • 🌱Promise12数据集特点
    • 🍃源文件样图
  • 2️⃣下载Promise12数据集
  • 3️⃣python读取一张Promise12数据集并展示
    • 🍀使用 Python 的 zipfile 模块来访问 ZIP 文件
    • 🍃注意 ⚠️ ⚠️⚠️
    • 🌳提取第一个raw
    • 🌲python读取raw
    • 🌱python读取分割切片结果
  • 4️⃣python处理整个Promise12数据集
    • 1. 数据集下载到本地之后先将zip解压
    • 2. 处理解压之后的数据集,将raw转为png
    • 3. 将所有png图像分为image文件夹和label文件夹
  • 5️⃣Promise12数据集官方给的评价指标

1️⃣Promise12数据集介绍

🌵介绍

数据集来源一个比赛Prostate MR Image Segmentation 2012。是一个广泛用于前列腺磁共振成像(MRI)分割的数据集。
这个数据集最初是在2012年的MICCAI 'Prostate MR Image Segmentation’挑战赛中使用的,🚩目标是比较用于前列腺MRI的交互式和(半)自动分割算法。可以下载。官网 下载地址在 Download里面

🌿临床意义

前列腺在MR图像上的分割在临床上尤为重要,👀因为它可以帮助确定前列腺的体积,这对于评估前列腺疾病,预测前列腺癌的病理阶段,了解预后,并帮助预测治疗反应都极为重要。

前列腺的大小,形状,以及相对于相邻器官的位置的信息是进行前列腺切除手术,🗿放射治疗以及新兴的微创疗法(如冷冻治疗和高强度聚焦超声)的手术规划的重要组成部分。Promise12数据集可以为这些应用提供关键的、精确的前列腺分割信息🚩。

🌱Promise12数据集特点

这个数据集的特点包括:

多中心,多数据供应商: 数据集中的图像来自多个不同的医疗中心和机构,使其可以覆盖和代表各种不同的病例和设备来源。

训练和测试数据:数据集提供训练和测试数据,均有相应的真实分割(ground truth)作为参考。

算法比较和评估:提交的结果会被自动评估并与参考标准进行比较,从而可以直观地比较和评价不同的分割算法的性能。

🍎🍎🍎这些特性使Promise12成为了前列腺MRI分割任务的重要基准数据集。研究者通过使用这个数据集来训练并评估他们的前列腺分割算法。

🍃源文件样图

在这里插入图片描述

2️⃣下载Promise12数据集

官网有三个包可以下载
在这里插入图片描述
livechallenge_test_data中的结构如下。这是比赛之后官网验证的数据集,比赛中不可见,是测试部分。
每个样本由4个文件组成分别是原始img的mhd,分割img的mhd。原始img的raw 分割img的raw

MHD和RAW是常用于医学图像处理和存储的文件格式。
MHD用于存储医学图像数据和相关的元数据信息。MHD文件通常是一个文本文件,其中包含图像数据的描述信息,例如图像的维度、像素类型、像素间距、数据存储顺序等。MHD文件本身并不包含图像数据,而是引用一个相应的RAW文件来存储实际的图像数据RAW文件则是包含原始图像数据的二进制文件。它通常与MHD文件配套使用,用于存储实际的图像像素值。RAW文件中的数据可以是未经处理的原始像素值,例如灰度值或颜色值,具体取决于图像的类型和采集设备。

在这里插入图片描述
test_data是提供给参赛人员的测试样本,结构一样。
在这里插入图片描述
training_data训练数据,也一样
在这里插入图片描述

3️⃣python读取一张Promise12数据集并展示

🍀使用 Python 的 zipfile 模块来访问 ZIP 文件

import zipfile
import os
import SimpleITK as sitk
import matplotlib.pyplot as plt
# 设置文件的路径
zip_file_path = 'F:\BaiduNetdiskDownload\promise12\\test_data.zip'
#
# 检查文件是否存在
if os.path.exists(zip_file_path):
    with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
        # 获取 ZIP 文件中的文件列表
        file_list = zip_ref.namelist()
        # 选取第一个文件(或任意一个文件)作为样本来展示
        sample_file = file_list[0] if file_list else None
        # 如果找到样本文件,则读取并展示其内容
        if sample_file:
            # 提取样本文件到当前目录或其他指定目录
            zip_ref.extract(sample_file, './extract/')
            print(f"样本文件 '{sample_file}' 已提取。")
        else:
            print("ZIP 文件中没有找到任何文件。")
else:
    print(f"文件路径 '{zip_file_path}' 不存在。")

运行结果为在这里插入图片描述
打开mhd文件,就是此图像的成像描述
在这里插入图片描述

🍃注意 ⚠️ ⚠️⚠️

文件关联问题:.mhd 文件应包含指向 .raw 文件的引用。也就是上图中的最后一行
一定确保 .mhd 文件中的路径指向 .raw 文件是正确的,并且 .raw 文件位于指定的位置。一定确保同时有 .mhd 和 .raw 文件。

🌳提取第一个raw

刚才的代码提取了第一个mhd文件,为了保证文件关联性,mhd 文件要指向 .raw 文件的引用。所以现在提取第一个raw文件,才能展示出图像。
上面代码这个改成1就好了
在这里插入图片描述
此代码的运行效果就是 提取到了mhd和raw到同一文件夹里面
在这里插入图片描述

🌲python读取raw

虽说图像信息保存在了raw里面,但其实读取的是mhd文件,mhd文件里面有raw文件的引用
读取代码如下

import zipfile
import os
import SimpleITK as sitk
import matplotlib.pyplot as plt
# 设置文件的路径
zip_file_path = 'F:\BaiduNetdiskDownload\promise12\\test_data.zip'
#
# 检查文件是否存在
if os.path.exists(zip_file_path):
    with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
        # 获取 ZIP 文件中的文件列表
        file_list = zip_ref.namelist()
        # 选取第一个文件(或任意一个文件)作为样本来展示
        sample_file = file_list[1] if file_list else None
        # 如果找到样本文件,则读取并展示其内容
        if sample_file:
            # 提取样本文件到当前目录或其他指定目录
            image_file = './extract/' + sample_file
            zip_ref.extract(sample_file, './extract/')
            image = sitk.ReadImage('./extract/Case00.mhd')
            # 将 SimpleITK 图像转换为 NumPy 数组
            image_array = sitk.GetArrayFromImage(image)
            # 选择一个切片来展示
            slice_index = 0  # 你可以选择不同的切片索引
            selected_slice = image_array[slice_index]
            # 使用 matplotlib 展示图像切片
            plt.imshow(selected_slice, cmap='gray')
            plt.axis('off')  # 不显示坐标轴
            plt.show()
            print(f"样本文件 '{sample_file}' 已提取。")
        else:
            print("ZIP 文件中没有找到任何文件。")
else:
    print(f"文件路径 '{zip_file_path}' 不存在。")

效果如下
在这里插入图片描述

🌱python读取分割切片结果

先用 Python 的 zipfile 模块来访问 ZIP 文件的代码把3,4切片的mhd和raw读取到extract文件夹里面
这个过程和第一个代码一样,就是改一下数字

import zipfile
import os
import SimpleITK as sitk
import matplotlib.pyplot as plt
# 设置文件的路径
zip_file_path = 'F:\BaiduNetdiskDownload\promise12\\test_data.zip'
#
# 检查文件是否存在
if os.path.exists(zip_file_path):
    with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
        # 获取 ZIP 文件中的文件列表
        file_list = zip_ref.namelist()
        # 选取第一个文件(或任意一个文件)作为样本来展示
        sample_file = file_list[3] if file_list else None
        # 如果找到样本文件,则读取并展示其内容
        if sample_file:
            # 提取样本文件到当前目录或其他指定目录
            zip_ref.extract(sample_file, './extract/')
            # image = sitk.ReadImage('./extract/Case00_segmentation.mhd')
            # # 将 SimpleITK 图像转换为 NumPy 数组
            # image_array = sitk.GetArrayFromImage(image)
            # # 选择一个切片来展示
            # slice_index = 9  # 你可以选择不同的切片索引
            # selected_slice = image_array[slice_index]
            # # 使用 matplotlib 展示图像切片
            # plt.imshow(selected_slice, cmap='gray')
            # plt.axis('off')  # 不显示坐标轴
            # plt.show()
            print(f"样本文件 '{sample_file}' 已提取。")
        else:
            print("ZIP 文件中没有找到任何文件。")
else:
    print(f"文件路径 '{zip_file_path}' 不存在。")

sample_file = file_list[3] if file_list else None这一行先改成2在改成3.
这样就能把3,4切片的mhd和raw读取到extract文件夹里面
之后运行下面的代码就能读取到分割结果的切片

import zipfile
import os
import SimpleITK as sitk
import matplotlib.pyplot as plt
# 设置文件的路径
zip_file_path = 'F:\BaiduNetdiskDownload\promise12\\test_data.zip'
#
# 检查文件是否存在
if os.path.exists(zip_file_path):
    with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
        # 获取 ZIP 文件中的文件列表
        file_list = zip_ref.namelist()
        # 选取第一个文件(或任意一个文件)作为样本来展示
        sample_file = file_list[3] if file_list else None
        # 如果找到样本文件,则读取并展示其内容
        if sample_file:
            # 提取样本文件到当前目录或其他指定目录
            zip_ref.extract(sample_file, './extract/')
            image = sitk.ReadImage('./extract/Case00_segmentation.mhd')
            # 将 SimpleITK 图像转换为 NumPy 数组
            image_array = sitk.GetArrayFromImage(image)
            # 选择一个切片来展示
            slice_index = 9  # 你可以选择不同的切片索引
            selected_slice = image_array[slice_index]
            # 使用 matplotlib 展示图像切片
            plt.imshow(selected_slice, cmap='gray')
            plt.axis('off')  # 不显示坐标轴
            plt.show()
            print(f"样本文件 '{sample_file}' 已提取。")
        else:
            print("ZIP 文件中没有找到任何文件。")
else:
    print(f"文件路径 '{zip_file_path}' 不存在。")

在这里插入图片描述

4️⃣python处理整个Promise12数据集

👍👍👍 以上我们完成的是使用python读取到了一张原图和一张分割结果的示例图

👉👉👉以下我们要做的是使用python处理数据集把她分为网络接受的图片。这里处理成png

1. 数据集下载到本地之后先将zip解压

import zipfile
import os
import SimpleITK as sitk
import matplotlib.pyplot as plt
# 设置文件的路径
zip_file_path = 'F:\BaiduNetdiskDownload\promise12\\test_data.zip'
#
# 检查文件是否存在
if os.path.exists(zip_file_path):
    with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
        # 获取 ZIP 文件中的文件列表
        file_list = zip_ref.namelist()
        # 选取第一个文件(或任意一个文件)作为样本来展示
        for i in file_list:
            zip_ref.extract(i, './extract/')

在这里插入图片描述

2. 处理解压之后的数据集,将raw转为png

import SimpleITK as sitk
import numpy as np
import imageio
import os

def convert_raw_to_png(raw_folder, output_folder):
    for file in os.listdir(raw_folder):
        if file.endswith(".mhd"):
            image_path = os.path.join(raw_folder, file)
            image = sitk.ReadImage(image_path)
            array = sitk.GetArrayFromImage(image)

            for i, slice in enumerate(array):
                slice_min = slice.min()
                slice_max = slice.max()
                slice_normalized = ((slice - slice_min) / (slice_max - slice_min) * 255).astype(np.uint8)
                file=os.path.splitext(file)[0]
                output_path = os.path.join(output_folder, f"{file}_{i}.png")
                imageio.imwrite(output_path, slice_normalized)

raw_folder = "./extract"
output_folder = "./png_images"
os.makedirs(output_folder, exist_ok=True)
convert_raw_to_png(raw_folder, output_folder)

在这里插入图片描述

3. 将所有png图像分为image文件夹和label文件夹

此时的图像都是混在一起的,一个名字对应一个原图和分割结果,我们把它分开在两个文件夹,更有利于构建dataset和dataloader

先把png_images文件夹里面的segmentation全部复制到label文件夹里面
在将png_images文件里里面的segmentation删除

import shutil
import os
path="./png_images"
new_folder='./label'
os.makedirs(new_folder, exist_ok=True)
for i in os.listdir(path):
    if "segmentation" in i:
        ori_seg_path=os.path.join(path,i)
        seg_path=os.path.join(new_folder,i)
        # 复制文件
        shutil.copy2(ori_seg_path, seg_path)
        # 删除混在一起的
        os.remove(ori_seg_path)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5️⃣Promise12数据集官方给的评价指标

Dice相似系数 (Dice Similarity Coefficient, DSC): 常用评价指标,用于量化分割结果与真实标签之间的重叠度。Dice系数的值范围从0到1,值越高表示分割结果与真实情况的一致性越好。

  • 敏感度 (Sensitivity)真正率 (True Positive Rate, TPR): 衡量了分割算法正确识别出正类(即前列腺组织)的能力。

  • 特异性 (Specificity)真负率 (True Negative Rate, TNR): 评估了分割算法正确识别出负类(即非前列腺组织)的能力。

  • Hausdorff距离 (Hausdorff Distance): 这是一个几何度量,用于衡量预测边界与真实边界之间的最大不一致性。

  • 平均表面距离 (Average Surface Distance, ASD): 用于计算预测边界与真实边界之间的平均距离,也是一个评估分割精度的重要指标。

  • 体积重叠误差 (Volume Overlap Error, VOE): 评估分割体积与真实体积之间的重叠程度。
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/165133.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

arcgis属性表十进制度转换成度分秒格式--转换坐标注记法

1、有一组点数据,如下: 2、为其添加XY坐标,如下: 打开属性表,可得到对应点的XY的十进制度坐标,如下: 3、将十进制度转换成度分秒格式,如下,使用转换坐标注记法工具&#…

FPGA实现平衡小车(文末开源!!)

FPGA平衡小车 一. 硬件介绍 底板资源: TB6612电机驱动芯片 * 2 MPU6050陀螺仪 WS2812 RGB彩色灯 * 4 红外接收头 ESP-01S WIFI 核心板 微相 A7_Lite Artix-7 FPGA开发板 电机采用的是平衡小车之家的MG310(GMR编码器)电机。底板上有两个TB6612芯片,可以驱动…

云原生微服务-理论篇

文章目录 分布式应用的需求分布式架构治理模式演进ESB 是什么?微服务架构 MSA微服务实践细节微服务治理框架sidercar 什么是service mesh?康威定律微服务的扩展性什么是MSA 架构?中台战略和微服务微服务总体架构组件微服务网关服务发现与路由…

【GUI】-- 10 贪吃蛇小游戏之静态面板绘制

GUI编程 04 贪吃蛇小游戏 4.1 第一步:先绘制一个静态的面板 首先,需要新建两个类,一个StartGame类作为游戏的主启动类;一个GamePanel类作为游戏的面板类。此外,再新建一个Data类作为数据中心(存放了小蛇各部分图像的…

Halcon (5):Halcon Solution Guide I basics 导论解析

文章目录 文章专栏前言文章目录翻译文档的说明 结论LOL比赛结局 文章专栏 Halcon开发 前言 今天开始看Halcon的官方文档。由于市面上的教学主要是以基础的语法,算子简单介绍为主。所以我还是得看官方的文本。别的不多说了。有道词英语词典,启动。 还有…

LeetCode【36】有效的数独

题目: 思路: https://blog.51cto.com/u_15072778/3788083 代码: public boolean isValidSudoku(char[][] board) {// 二维数组第一个标识 0-9行,第二个表示 0-9数字,存的内容boolean 表示第0-9行,0-9这些…

react之基于@reduxjs/toolkit使用react-redux

react之基于reduxjs/toolkit使用react-redux 一、配置基础环境二、使用React Toolkit 创建 counterStore三、为React注入store四、React组件使用store中的数据五、实现效果六、提交action传递参数七、异步状态操作 一、配置基础环境 1.使用cra快速创建一个react项目 npx crea…

摩根看好的前智能硬件头部品牌双11交易数据极度异常!——是模式创新还是饮鸩止渴?

文 | 螳螂观察 作者 | 李燃 双11狂欢已落下帷幕,各大品牌纷纷晒出优异的成绩单,摩根士丹利投资的智能硬件头部品牌凯迪仕也不例外。然而有爆料称,在自媒体平台发布霸榜各大榜单喜讯的凯迪仕智能锁,多个平台数据都表现出极度异常…

EEPROM与Flash的区别

EEPROM与Flash的区别 EEPROMEEPROM内部功能框图实现写入数据内部结构存储管在充电或放电状态下有着不同的阈值电压 问题点EEPROM是如何失效的呢?为何EEPROM不能做大呢? ------------------------------------------------------------------------------…

Apache ECharts简介

二十九、Apache ECharts 29.1 介绍 Apache ECharts 是一款基于 JavaScript 的数据可视化图表库,提供直观、生动、可交互、可个性化定制的数据可视化图表。 官网地址:https://echarts.apache.org/zh/index.html 常见效果展示: 1). 柱形图 …

centos7 探测某个tcp端口是否在监听

脚本 nc -vz 192.168.3.128 60001 if [ $? -eq 0 ]; thenecho "tcp succeed" elseecho "tcp failed" fi nc -vz 192.168.3.128 60001 探测192.168.3.128服务器上60001 tcp端口, -vz说明是探测TCP的 端口开启的情况 执行脚本 端口禁用情况 执行脚本

【半监督学习】CNN与Transformer的结合

本文介绍了几篇结合使用CNN和Transformer进行半监督学习的论文,CNN&Trans(MIDL2022),Semi-ViT(ECCV2022),Semiformer(ECCV2022). Semi-Supervised Medical Image Seg…

webservice笔记

1,简介 webservice,是一种跨编程语言和跨操作系统平台的远程调用技术。 webservice三要素:soap、wsdl、uddi2,服务端 2.1创建项目 2.2 编写服务类,并发布服务 import com.test.service.impl.HelloServiceImpl; impo…

NI Package Manager创建程序包

NI Package Manager创建程序包 要使用PackageManager创建程序包,即把相关的组件都放在一个目录下,使用命令行创建程序包。 程序包是一个压缩文件,包含要安装到目标位置的所有文件。Package Manager创建的程序包扩展名为.nipkg。可以使用Pack…

linux网络——HTTPS加密原理

目录 一.HTTPS概述 二.概念准备 三.为什么要加密 四.常⻅的加密⽅式 1.对称加密 2.⾮对称加密 五.数据摘要,数字签名 六.HTTPS的加密过程探究 1.方案一——只使用对称加密 2.方案二——只使⽤⾮对称加密 3.方案三——双⽅都使⽤⾮对称加密 4.方案四——⾮…

气候更换,气运也会随之变化

天人合一,人天相应,人体与宇宙天体的运行互相感应相通,与大自然的万千变化紧密联系。阴阳转换,带来的气场和磁场的变化,对自然界万事万物和人影响很大。 蒹葭苍苍,白露为霜,所谓伊人&#xff0…

【JavaEE初阶】计算机是如何工作的

一、计算机发展史 计算的需求在⼈类的历史中是广泛存在的,发展大体经历了从⼀般计算⼯具到机械计算机到目前的电子计算机的发展历程。 人类对计算的需求,驱动我们不断的发明、改善计算机。目前这个时代是“电子计算机”的时代,发展的潮流是…

变量命名的规则与规范

变量命名的规则与规范 变量命名的规则不能使用关键字字母须区分大小写由字母、数字、_、$组成,且不能以数字开头 变量命名的规范起名须有一定的意义遵守小驼峰命名法 变量命名的规则 不能使用关键字 在JavaScript中声明变量不能使用JavaScript的常用关键字&#x…

程序员开发者神器:10个.Net开源项目

今天一起盘点下,8月份推荐的10个.Net开源项目(点击标题查看详情)。 1、基于C#开发的适合Windows开源文件管理器 该项目是一个基于C#开发、开源的文件管理器,适用于Windows,界面UI美观、方便轻松浏览文件。此外&#…

Google Earth Engine(GEE)操作

地理信息网站 Eatrth Explorer操作界面 在研究中,我们常需要遥感数据。在下面的网站中,可以得到遥感数据。 EarthExplorer (usgs.gov)https://earthexplorer.usgs.gov/登陆网站: 通常,在Additional Criteria中,可以…
最新文章