NSL-KDD数据集详细介绍及下载

链接:https://pan.baidu.com/s/1hX4xpVPo70vwLIo0gdsM8A?pwd=q88b 
提取码:q88b

        一般认为数据质量决定了机器学习性能的上限,而机器学习模型和算法的优化最多 只能逼近这个上限。因此在数据采集阶段需要对采集任务进行规划。在数据采集之前, 主要是从数据可用性、采集成本、特征可计算性、存储成本的角度进行分析,以获得尽可能 多的样本特征为基本目标。

        入侵检测的数据采集方法取决于入侵检测系统的类型,即网络入侵检测和主机入侵 检测系统。对于网络入侵检测,采用网络嗅探、网络数据包截获等方法获得流量数据。对 于主机入侵检测,采用的方法比较灵活,既可以是操作系统的各种日志,也可以是某些应 用系统的日志,还可以通过开发驻留于主机的应用软件等方法获得主机数据。因此,与网 络连接、网络请求有关的特征,以及各类日志中的特征都是入侵检测常用的数据源。

        这里介绍入侵检测领域常用的数据集,包括 NSL-KDD等,这些公开的数据集为帮助 研究人员比较不同的入侵检测方法提供了基准。NSL-KDD 数据集是通过网络数据包提 取而成,由 M.Tavallaee等于2009年构建,它克服了更早之前 KDDCup99数据集中存 在的一些问题。

NSL-KDD共使用41个特征来描述每条流量,这些特征可以分为三组。

(1)基本特征(basic features),从 TCP/IP连接中提取。

(2)流量特征(traffic features),与同一主机或同一服务相关。

(3)内容特征(content features),反映了数据包中的内容。

除此之外,每条流量都带有一个标签,即normalanomaly,表示相应的流量为正常 或异常。因此 NSL-KDD是一个二分类的异常检测数据集

        从特征工程的角度看,NSL-KDD实际上已经完成了特征工程中的特征可用性、特征 采集,以及衍生特征的定义和计算。使用该数据集进行检测实验,只要从特征清洗、特征 选择或特征提取开始就可以。

NSL-KDD每条流量的41个特征的含义如表5-1所示,表中列出了特征名称及其类 型,其中 continuous是 连 续 数 值 型,symbolic是 符 号 类 型。例 如,protocol_type属 于 symbolic类型,它的取值范围是 {t' cp','udp',i'cmp'},是一种枚举值。

从https://www.unb.ca/cic/datasets/nsl.html下载数据文件,该数据压缩文件中 包含的文件说明如下。

KDDTrain+ .TXT: 是完整的 NSL-KDD训练集,除了41个特征外,还包括数据包 类型的标签和难度等级。其中,数据包类型有 normal,以及 back、buffer_overflow、guess_ passwd、portsweep、rootkit、satan、smurf、teardrop、warezclient、warezmaster等 入 侵 类 型。难度等级表示每条记录分类时判断的难易程度,是一个[0,21]范围内的整数,数值越 大表示该记录越容易分类,0是最不容易分类的。整个数据集共125973条记录,难度等 级小于15的记录占2.94%,可以看出绝大部分记录的分类标签都是比较确切的。 

KDDTrain + .ARFF:与 KDDTrain+ .TXT 大致相同,只是每条记录不包含难度 等级,同时数据包类型的标签被归类为normal和anomaly两种。该文件带有41个特征 的属性名和类型描述,可以直接在 Weka中使用。

KDDTrain+ _20Percent.TXT:是 KDDTrain + .txt文件的20%子集,实际上是 KDDTrain+ .txt前20%的记录。

KDDTrain+ _20Percent.ARFF:是 KDDTrain+ .arff文件的20%子集。

KDDTest+ .TXT:是完整的 NSL-KDD测试集,包括攻击类型的标签和CSV 格式 的难度等级。

KDDTest+ .ARFF:是完整的 NSL-KDD测试集,带有 ARFF格式的二进制标签。

KDDTest-21.TXT:是 KDDTest+ .txt文件的子集,其中不包括难度级别为21的 记录,即该数据集中共21个难度等级。

KDDTest-21.ARFF:是 KDDTest+ .arff文件的子集,其中不包括难度级别为21 的记录,该数据集共包含21个难度等级。

内容来自:标题 (tsinghua.edu.cn),可以再结合其他博客详细了解一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/544681.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第十二讲 查询计划 优化

到目前为止,我们一直在说,我们得到一个 SQL 查询,我们希望可以解析它,将其转化为某种逻辑计划,然后生成我们可以用于执行的物理计划。而这正是查询优化器【Optimizer】的功能,对于给定的 SQL ,优…

.net框架和c#程序设计第三次测试

目录 一、测试要求 二、实现效果 三、实现代码 一、测试要求 二、实现效果 数据库中的内容&#xff1a; 使用数据库中的账号登录&#xff1a; 若不是数据库中的内容&#xff1a; 三、实现代码 login.aspx文件&#xff1a; <% Page Language"C#" AutoEventW…

DB schema表中使用全局变量及在DB组件中查询

DB schema表中使用全局变量及在DB组件中查询 规则如下&#xff1a; 使用如下&#xff1a; 如果在unicloud-db组件上不加判断条件&#xff0c;就会报错&#xff0c;并进入到登录页。 那么就会进入到登录页&#xff0c;加上了判断条件&#xff0c;有数据了就不会了。 因为在sc…

TQ15EG开发板教程:在MPSOC上运行ADRV9371(vivado2018.3)

首先需要在github上下载两个文件&#xff0c;本例程用到的文件以及最终文件我都会放在网盘里面&#xff0c; 地址放在本文最后。首先在github搜索hdl选择第一个&#xff0c;如下图所示 GitHub网址&#xff1a;https://github.com/analogdevicesinc/hdl/releases 点击releases…

【Maven工具】

maven Maven是一个主要用于Java项目的构建自动化工具。它有助于管理构建过程&#xff0c;包括编译源代码、运行测试、将编译后的代码打包成JAR文件以及管理依赖项。Maven使用项目对象模型&#xff08;POM&#xff09;文件来描述项目配置和依赖关系。 Maven通过提供标准的项目…

分布式系统中的唯一ID生成方法

通常在分布式系统中&#xff0c;有生成唯一ID的需求&#xff0c;唯一ID有多种实现方式。我们选择其中几种&#xff0c;简单阐述一下实现原理、适用场景、优缺点等信息。 目录 数据库多主复制UUID工单服务器雪花算法总结 数据库多主复制 数据库通常有自增属性&#xff0c;在单机…

解决vue启动项目报错:npm ERR! Missing script: “serve“【详细清晰版】

目录 问题描述问题分析和解决情况一解决方法情况二&#xff08;常见于vue3&#xff09;解决方法情况三解决方法 问题描述 在启动vue项目时通常在控制台输入npm run serve 但是此时出现如下报错&#xff1a; npm ERR! Missing script: "serve" npm ERR! npm ERR! T…

80% 的人都不会的 15 个 Linux 实用技巧

熟悉 Linux 系统的同学都知道&#xff0c;它高效主要体现在命令行。通过命令行&#xff0c;可以将很多简单的命令&#xff0c;通过自由的组合&#xff0c;得到非常强大的功能。 命令行也就意味着可以自动化&#xff0c;自动化会使你的工作更高效&#xff0c;释放很多手工操作&…

纸制品ERP怎么样

在纸制品行业中&#xff0c; ERP系统的应用已经成为提升企业竞争力的关键因素。本文将探讨万达宝ERP系统在制造成本控制、商品生命周期管理以及自动对接主流平台方面的作用&#xff0c;并分析其在业务流程优化、高效调节各类关系以及多种模式生产方面的特点和益处。 制造成本控…

【数据结构(六)】队列

❣博主主页: 33的博客❣ ▶️文章专栏分类:数据结构◀️ &#x1f69a;我的代码仓库: 33的代码仓库&#x1f69a; &#x1faf5;&#x1faf5;&#x1faf5;关注我带你学更多数据结构知识 目录 1.前言2.概念3.队列的使用4.循环队列5.双端队列6.经典习题6.1队列实现栈6.2栈实现队…

【学习笔记十】EWM自动产品包装配置

一、确定包装物料建议的程序 1.定义内向交货处理的凭证类型 2.确定包装物料建议的程序确定原理 使用可以确定包装材料建议的过程来指定业务代码。系统使用这些业务代码查找包装规格。包装期间&#xff0c;系统可建议包装材料。如果系统确定包装规格并建议包装材料&#xff0c;…

Maven创建项目

目录 1.创建项目 2.从Maven Repository: Search/Browse/Explore (mvnrepository.com)链接&#xff0c;下载API 3.1.0 3.在main文件内创建webapp文件夹&#xff0c;再webapp文件夹内创建WEB-INF文件夹&#xff0c;在WEB-INF文件夹内创建web.xml 4.网络编程 5.打包 6.部署 …

Python学习笔记16 - 函数

函数的创建和调用 函数调用的参数传递 函数的返回值 函数的参数定义 变量的作用域 递归函数 斐波那契数列 总结

网络编程套接字(二)之UDP服务器简单实现

目录 一、服务端UdpServer 1、udp_server.hpp 1、服务器的初始化 2、服务器的运行 2、udp_server.cc 二、客户端UdpClient udp_client.cc 三、完整代码 一、服务端UdpServer 1、udp_server.hpp 首先&#xff0c;我们在该文件中&#xff0c;将服务器封装成一个类&#…

网络抓包工具使用

一、下载安装 &#xff08;1&#xff09; linux&#xff1a; ① 使用 yum install tcpdump -y 安装 **tcpdump**工具 ② 编译安装 yum -y install gcc-c yum -y install flex yum -y install bison官网下载tcpdump和libpcap 官网地址:https://www.tcpdump.org/index.html#lat…

网红天水海英麻辣烫改名:还是商标的问题!

近日火爆网络的天水海英麻辣烫改名&#xff0c;改成“哈海英麻辣烫”&#xff0c;并打了TM&#xff0c;表示此商标名称商标局已经受理并下发通知书&#xff0c;普推知产老杨检索分析&#xff0c;改名的主要原因还是商标。 对于餐饮店和麻辣烫核心类别就在43类别及30类方便食品&…

表格单列相同字段值合并

用specName(el.specName row.specName)和id的区别(el.id row.id)&#xff0c;使用id的时候id是唯一值&#xff0c;判断的时候不会出现重复情况&#xff0c;使用specName的时候&#xff0c;如果有重复的值&#xff0c;会出现合并错位的情况。 解决方案&#xff1a;先按照specT…

【树哈希】CF1182D Complete Mirror

CF1182D - Complete Mirror Description 给定一个 n n n 个点的无根树&#xff0c;求一个树根 r o o t root root,使得对于任意两个节点 v 1 , v 2 v_1,v_2 v1​,v2​&#xff0c;若满足 d i s t ( v 1 , r o o t ) d i s t ( v 2 , r o o t ) dist(v_1,root)dist(v_2,ro…

CUDA编程---全局内存

CUDA内存模型概述 内存的访问和管理是所有编程语言的重要部分。在现代加速器中&#xff0c;内存管理对高性能计算有着很大的影响。因为多数工作负载被加载和存储数据的速度所限制&#xff0c;所以有大量低延迟、高带宽的内存对性能是十分有利的。 然而&#xff0c;大容量、高性…

第十五届蓝桥杯省赛C/C++大学B组真题及赛后总结

目录 个人总结 C/C 组真题 握手问题 小球反弹 好数 R 格式 宝石组合 数字接龙 爬山 拔河 ​编辑 再总结及后续规划 个人总结 第一次参加蓝桥杯&#xff0c;大二&#xff0c;以前都在在学技术&#xff0c;没有系统的学过算法。所以&#xff0c;还是花了挺多时间去备…
最新文章