matlab 基于拉依达检验法(3σ准则) 实现多类别多参数的批量异常样本检验 V2.0

简介

拉依达检验法(3σ准则)是一种统计学方法,用于检测数据中的异常值。这种方法基于正态分布的特性来确定数据点是否可能是异常值。以下是关于拉依达检验法(3σ准则)的详细介绍:

  1. 基本原理

    • 拉依达检验法(3σ准则)假设一组检测数据只含有随机误差,通过对数据进行计算处理得到标准偏差σ(sigma)。
    • 在正态分布中,数据点通常集中在均值μ(mu)附近,而标准偏差σ表示数据的离散程度。
    • 根据正态分布的性质,大部分数据点(约68.26%)会分布在μ±σ之间,约有95.44%的数据点分布在μ±2σ之间,而几乎所有的数据点(约99.7%)都会分布在μ±3σ之间。
  2. 应用方法

    • 首先,计算数据的均值μ和标准偏差σ。
    • 然后,确定一个区间,即μ±3σ。
    • 任何超出这个区间的数据点被认为是异常值,可能由于粗大误差或过失误差引起,这些异常值应予以剔除或进行进一步检查。
  3. 适用范围与局限性

    • 拉依达检验法(3σ准则)主要适用于正态或近似正态分布的数据集。
    • 该方法以测量次数充分大为前提,当测量次数较少时,使用此方法剔除粗大误差可能不够可靠。
    • 因此,在数据量较小的情况下,应谨慎使用此方法,并可能需要选择其他更适用的方法。

这一个版本的代码,针对之前代码[1]的不足和问题,对程序进行了进一步的优化。

[1]:matlab 基于拉依达检验法(3σ准则) 实现多类别多参数的批量检验异常值与异常样本_拉依达准则matlab-CSDN博客

代码简介和说明

输入数据:

数据每行代表一个样本,每列代表一个参数   

输入数据的第一列为类别表示,即同一类别用相同的数字标识:

主程序:

%拉伊达检验法;不同样本在不同行,不同参数不同列
%输入 data:数据表格,其中第1列为标识
%输出:Errorshow 异常样本所在的行数,以及异常的参数内容(列)
%输入:resData 剔出异常样本后的表格
clear all

%%参数设置区域

data=xlsread("test.xlsx");%输入表格

%按数字标识的方法
nameNum=[1,2,3,4,5,6];%输入每个处理数字标识,自己可以设定(","衔接)
[~,classNum]=size(nameNum);
maxCheck_num=100;%最大循环检验次数

%%
[maxrow,~]=size(data);
data=[(1:maxrow)',data];%增加序号标识

for i=1:classNum%遍历不同的处理
    indexlist=find(data(:,2)==nameNum(1,i));
    testdata=data(indexlist,:);
    [IFPa,ErrorRowindex{i},res]=patuaC(testdata,maxCheck_num,nameNum(i));
    if i==1
        resdata=res;
    else
        resdata=[resdata;res];
    end
end
%将异常样本整合在一个表中展示
Errorshow=zeros(1,length(data(1,:)));
for i=1:classNum%类别
    for p=3:length(data(1,:))%参数
        for j=1:length(ErrorRowindex{i}{p-2}())%行号
            Errordet=zeros(1,length(data(1,:)));
            if ErrorRowindex{i}{p-2}(j)~=0
                if ismember(ErrorRowindex{i}{p-2}(j),Errorshow(:,1))
                    Errorshow(  find(Errorshow(:,1)==ErrorRowindex{i}{p-2}(j)) ,p-1)=1;
                else
                    Errordet(1,1)=[ErrorRowindex{i}{p-2}(j)];
                    Errordet(1,p-1)=1;
                    Errorshow=[Errorshow;Errordet];
                end
            end
        end
    end
end
Errorshow=sortrows(Errorshow,1);%排序

自定义函数patuaC

(将其放入和主程序同一文件夹内后运行主程序)

function  [IFPa,ErrorRowindex,resdata]=patuaC(inputdata,maxCheck_num,classindex)
%输入:
% inputdata:检验的数据
%maxCheck_num:最大迭代次数
%classindex:样本代号
%输出:
%IFPa:逻辑值,是否有异常样本
%ErrorRowindex:异常样本的位置信息
%resdata:剔除异常值剩余的数据


%   此处显示详细说明

resdata=inputdata;
for i=1:maxCheck_num
    [yn,xn]=size(resdata);
    Slist=std(resdata);%计算方差和均值
    Ave=mean(resdata);
    IFPacir=false;
    for coln=3:xn
        ErrorRow{coln-2}=[0];

        for rown=1:yn

            if abs(resdata(rown,coln)-Ave(coln))>3*Slist(coln)
                IFPacir=true;
                ErrorRow{coln-2}=[ErrorRow{coln-2};resdata(rown,1)];
            end
        end
    end

    if IFPacir%如果有问题数据
        %删除有问题的行
        for coln=1:xn-2
            if i~=1
                ErrorRowindex{coln}=[ErrorRowindex{coln};ErrorRow{coln}];
            else
                ErrorRowindex{coln}=ErrorRow{coln};
            end
            [cirN,~]=size(ErrorRow{coln});
            for dn=1:cirN
                if ismember(ErrorRow{coln}(cirN),resdata(:,1))
                    resdata(find(resdata(:,1)==ErrorRow{coln}(cirN)),:)=[];
                end
            end
        end
    else
        break
    end
end
abnormal_samples = length(inputdata(:,1)) - length(resdata(:,1));
if abnormal_samples~=0
    IFPa=true;
end
percentN=(length(inputdata(:,1)) - length(resdata(:,1)))/length(inputdata)*100;
message = sprintf('在类别"[%d]"中找到 %d 个异常样本,占比%.2f%%', classindex,abnormal_samples,percentN);
disp(message);

执行效果:

控制窗输出异常样本信息:

异常样本的整合信息Errorshow:

第一行是异常样本原来所在的行号,对应的列为1代表该列的参数不满足检验假设;

数据分享:

我将脚本使用的检验数据分享给各位,方便复现和了解:

链接:https://pan.baidu.com/s/1_OGMMluQgusFV66v-4xOQQ?pwd=cvws 
提取码:cvws 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/602221.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

移除链表元素题目讲解

一:题目 二:思路讲解 方法一: 1:创建两个指针prev和cur,初识位置cur为head,prev为NULL,然后两个指针往后移动开始去寻找与val值吻合的节点,最后找到节点的时候,cur指向…

Linux基础之yum和vim

目录 一、软件包管理器yum 1.1 软件包的概念 1.2 软件包的查看 1.3 软件包的安装和删除 二、Linux编辑器之vim 2.1 vim的基本概念 2.2 正常模式(命令模式) 2.3 底行模式 2.4 输入模式 2.5 替换模式 2.6 视图模式 2.7 总结 一、软件包管理器yu…

SSL证书0元购完整教程

为了确保在线交互的安全性与可信度,越来越多的网站选择启用SSL(Secure Sockets Layer)证书,为数据传输加上一层坚实的保护罩。尤为值得一提的是,随着技术的发展与行业推动,免费SSL证书逐渐成为众多网站所有…

秒翻-网页翻译最佳选择

使用方法: 安装“沉浸式翻译” 在扩展设置页面勾选“Beta”特性。 输入 DeepLX 现成的 API-https://api.deeplx.org/translate。

【Git】Commit后进行事务回滚

起因 因为一直使用git add .,在学习pytorch中添加了一个较大的数据集后,导致git push失败,而这个大数据集并不是必须要上传到仓库的,但是因为自己在设置.gitignore前已经进行了git comit,所以,需要进行事务…

C#中实现DataGridView数据的优雅Excel之旅(EPPlus)

DataGridView效果图: EXCEL效果图: 代码如下: 首先要引入EPPlus包 可以使用命令行来安装 Install-Package EPPlus 也可以使用NUGet搜索EPPlus来安装 public Homes(){InitializeComponent();ExcelPackage.LicenseContext OfficeOpenXml.LicenseContext…

机器学习:人工智能中实现自动化决策与精细优化的核心驱动力

🔒文章目录: 💥1.概述 ❤️2.机器学习基本原理 🛤️2.1定义与关键概念 🛣️2.2 机器学习算法 ☔3.自动化决策中的机器学习应用 🚲4.精细优化与机器学习的结合 👊5.挑战与前景 💥1.概述 …

2024年学浪课程下载工具

学浪下载工具我已经打包好了,有需要的自己下载一下 学浪下载器链接:百度网盘 请输入提取码 提取码:1234 --来自百度网盘超级会员V10的分享 1.首先解压好我给大家准备好的压缩包 2.打开解压好的文件夹里面的N_m3u8D文件夹,然…

世界上最好用的在线看板工具 Trello 已支持 AI 啦!

对 Trello 免费版用户的提醒 从5月20日开始,免费版 Trello 工作区仅支持 10 个协作者,超过此限制将仅支持查看,无法编辑。解决这一问题的方法是减少协作者数量或升级到标准版或高级版。 Atlassian 去年在其云平台中引入了人工智能工具 Atlas…

TikTok营销策略解析:7大关键要素打造品牌影响力

TikTok作为近年来迅速崛起的短视频社交平台,已经成为全球范围内品牌营销的重要阵地。对于品牌而言,如何在TikTok上有效地开展营销活动,吸引目标受众的注意力,提升品牌知名度和影响力,是摆在他们面前的重要课题。本文No…

Tcl学习笔记(四)——流程控制、过程、命名空间、访问文件

1. 流程控制 if命令 if命令后跟两个参数:表达式、待执行的Tcl脚本。if命令中的每一个左大括号都必须与它前一个字符同行。 有elseif和else可选子句,使用时与if中第二个参数的右大括号放在同一行。 switch命令 switch命令利用一个给定值与多个模式进行匹…

Redis-五大数据类型-Hash(哈希)

五大数据类型-Hash(哈希) 简介 Hash是一个键值对的集合。 Hash 是一个 String 类型的 field(字段) 和 value(值) 的映射表,hash 特别适合用于存储对象。 Hash 是 Redis 中出现最为频繁的复合…

大模型市场爆发式增长,但生成式AI成功的关键是什么?

进入2024年,大模型市场正在爆发式增长。根据相关媒体的总结,2024年1-4 月被统计到的大模型相关中标金额已经达到2023年全部中标项目披露金额的77%左右;其中,从项目数量来看,应用类占63%、算力类占21%、大模型类占13%、…

OpenCV 入门(六) —— Android 下的人脸识别

OpenCV 入门系列: OpenCV 入门(一)—— OpenCV 基础 OpenCV 入门(二)—— 车牌定位 OpenCV 入门(三)—— 车牌筛选 OpenCV 入门(四)—— 车牌号识别 OpenCV 入门&#xf…

如何查看打包后的jar包启动方法

背景 有时候我们在引用一个jar包的时候,想查看一个jar包的结构,这时候查看启动类就比较重要,因为一些关键配置是在启动类上的,这里教大家如何查看这个启动类(springboot项目) 步骤 首先打开jar包预览结构,可以使用解压缩工具直接双击打开或者预览结构 打开路径 META-INF/MA…

遥感+大数据为智慧无人农场按下“倍速键”

春回大地万象“耕”新,在襄阳市襄州区张家集镇近2000亩小麦绿意盎然、勃勃生机。 湖北绿神农业科技有限公司的生产经理王真指着监控室的电脑屏幕,告诉记者在与珈和科技合作开发的农田遥感监测平台上各类农田数据一目了然,为实现农业智能化管理…

TriCore User Manual 笔记 1

说明 本文是 英飞凌 架构文档 TriCore TC162P core archiecture Volume 1 of 2 (infineon.com) 的笔记,稍作整理方便查阅,错误之处,还请指正,谢谢 :) 1. Architecture 2. General Purpose & System Register 名词列表&#…

记录一个RSA加密js逆向

network调试就不说了吧 pwd加密参数 搜索pwd参数定位逆向 可以看到有很多关键词 但是我们细心的朋友会发现加密函数关键字 encrypte 打上断点 调试 发现在断点处停止了 并且框选函数发现了一串加密值 虽然不一样但是大概率是这个 并且没你每次放置移开都会刷新 所以如果这个就是…

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-14-主频和时钟配置

前言: 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM(MX6U)裸机篇”视频的学习笔记,在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…

2024上半年软考新规,对高级论文科目不太友好

辽宁省发布了《关于2024年上半年计算机技术与软件专业技术资格(水平)考试批次安排的通知》,通知原文如下: 添加图片注释,不超过 140 字(可选) 添加图片注释,不超过 140 字(可选) 1.…
最新文章