Python数据预处理1:导入与基本操作

2024/4/30

After installing the 'xlrd' package, you should be able to read Excel files using pandas without any issues.

#需要在pyCharm命令行中下载两个包
pip install pandas
pip install xlrd

.xls数据导入 

#数据的导入
import pandas as pd
#导入EXCEL表格数据
df_excel=pd.read_excel('C:/Users/galax/Desktop/数据预处理py实验表sklearn(清洗脏数据).xls')

#将变量赋给see_data
see_data=df_excel
 查看前五行数据
#查看数据的前5行
print(see_data.head())
#查看数据的后5行
print(see_data.tail())

结果:(前五行)

(后五行)

查看所有的列名
#查看所有的列名
print(see_data.colums)

结果:

查看数据规模(形状:n行xm列) 
#查看数据规模:
print(see_data.shape)

 结果:

查看各个变量的数据类型:
#查看各个变量的数据类型:
print(see_data.dtypes)

结果:

[5 rows x 35 columns]
(9, 35)
name                       object
Est. Profit                object
Type                       object
Δv                         object
MOID                      float64
Composition                object
Aphelion                  float64
Diameter                  float64
e                         float64
a                         float64
Semi-major Axis           float64
Rotation                  float64
Inclination               float64
Perihelion (              float64
Period                    float64
EMOID                     float64
Albedo                     object
epoch                     float64
q                         float64
i                         float64
node                      float64
peri                      float64
M                         float64
tp                        float64
period                    float64
n                         float64
Q                         float64
[H] absolute magnitude    float64
diameter                  float64
rotation period           float64
geometric albedo          float64
B-V                       float64
U-B                       float64
Tholen spectral type       object
SMASSII spectral type      object
查看数据的整体信息
#查看数据整体信息(每一列的数据类型)
print(see_data.info())

结果: 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 35 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   name                    9 non-null      object 
 1   Est. Profit             8 non-null      object 
 2   Type                    5 non-null      object 
 3   Δv                      9 non-null      object 
 4   MOID                    2 non-null      float64
 5   Composition             6 non-null      object 
 6   Aphelion                9 non-null      float64
 7   Diameter                7 non-null      float64
 8   e                       8 non-null      float64
 9   a                       7 non-null      float64
 10  Semi-major Axis         8 non-null      float64
 11  Rotation                7 non-null      float64
 12  Inclination             9 non-null      float64
 13  Perihelion (            9 non-null      float64
 14  Period                  9 non-null      float64
 15  EMOID                   9 non-null      float64
 16  Albedo                  4 non-null      object 
 17  epoch                   9 non-null      float64
 18  q                       6 non-null      float64
 19  i                       6 non-null      float64
 20  node                    6 non-null      float64
 21  peri                    6 non-null      float64
 22  M                       6 non-null      float64
 23  tp                      6 non-null      float64
 24  period                  6 non-null      float64
 25  n                       6 non-null      float64
 26  Q                       6 non-null      float64
 27  [H] absolute magnitude  6 non-null      float64
 28  diameter                6 non-null      float64
 29  rotation period         6 non-null      float64
 30  geometric albedo        6 non-null      float64
 31  B-V                     5 non-null      float64
 32  U-B                     5 non-null      float64
 33  Tholen spectral type    5 non-null      object 
 34  SMASSII spectral type   6 non-null      object 
dtypes: float64(27), object(8)
memory usage: 2.6+ KB
None
查看数据描述统计,包括平均值极值等 
#查看数据描述统计,包括平均值极值等
print(see_data.describe())

结果:

查看空值和缺失值

#查看某列是否含有空值和缺失值
print(see_data.isnull().any(axis=0))#axis取0是列,取1是行

结果:

name                      False
Est. Profit                True
Type                       True
Δv                        False
MOID                       True
Composition                True
Aphelion                  False
Diameter                   True
e                          True
a                          True
Semi-major Axis            True
Rotation                   True
Inclination               False
Perihelion (              False
Period                    False
EMOID                     False
Albedo                     True
epoch                     False
q                          True
i                          True
node                       True
peri                       True
M                          True
tp                         True
period                     True
n                          True
Q                          True
[H] absolute magnitude     True
diameter                   True
rotation period            True
geometric albedo           True
B-V                        True
U-B                        True
Tholen spectral type       True
SMASSII spectral type      True
dtype: bool
 定位空值和缺失值所在的行
#定位缺失值所在的行
print(see_data.loc[see_data.isnull().any(axis=1)])

结果:

统计各个变量中缺失值的数量
#统计各个变量中缺失值的数量
print(see_data.isnull().sum(axis=0))

结果:

[9 rows x 35 columns]
name                      0
Est. Profit               1
Type                      4
Δv                        0
MOID                      7
Composition               3
Aphelion                  0
Diameter                  2
e                         1
a                         2
Semi-major Axis           1
Rotation                  2
Inclination               0
Perihelion (              0
Period                    0
EMOID                     0
Albedo                    5
epoch                     0
q                         3
i                         3
node                      3
peri                      3
M                         3
tp                        3
period                    3
n                         3
Q                         3
[H] absolute magnitude    3
diameter                  3
rotation period           3
geometric albedo          3
B-V                       4
U-B                       4
Tholen spectral type      4
SMASSII spectral type     3
dtype: int64

python数据预处理基本操作整体代码

#数据的导入
import pandas as pd
#导入EXCEL表格数据
df_excel=pd.read_excel('C:/Users/galax/Desktop/数据预处理py实验表sklearn(清洗脏数据).xls')
see_data=df_excel
#查看数据的前5行
print(see_data.head())
#查看数据的后5行
print(see_data.tail())
#查看数据规模:
print(see_data.shape)
#查看各个变量的数据类型:
print(see_data.dtypes)
#查看数据整体信息(每一列的数据类型)
print(see_data.info())
#查看数据描述统计,包括平均值极值等
print(see_data.describe())
#查看所有的列名
print(see_data.columns)
#查看空值和缺失值
print(see_data.isnull().any(axis=0))#axis取0是列,取1是行
#定位缺失值所在的行
print(see_data.loc[see_data.isnull().any(axis=1)])
#统计各个变量中缺失值的数量
print(see_data.isnull().sum(axis=0))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/584812.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

前端工程化Vue使用Node.js永久设置国内高速npm镜像源

前端工程化Vue使用Node.js永久设置国内高速npm镜像源 接续上篇错误收录&#xff0c;此篇通过简单配置永久设置国内高速npm镜像源方法 1.更换新版镜像 清空npm缓存 npm cache clean --force修改回原版镜像源或直接删除配置过的镜像源 npm config set registry https://registr…

Gone框架介绍3 - 使用gone命令,自动生成Priest函数

文章目录 1. 安装辅助工具: gone2. 创建一个名为gen-code的新项目3. 创建Goner4. 使用辅助工具5. 添加main函数 我在两年前实现了一个Golang的依赖注入框架&#xff0c;并且集成了gin、xorm、redis、cron、消息中间件等功能&#xff0c;自己觉得还挺好用的&#xff1b;之前一直…

9.【Linux】(死锁问题||线程同步||条件变量||生产者消费者模型)

常见锁的概念 死锁 死锁是指在一组进程中各个进程均占有不会释放的资源&#xff0c;但因互相申请被其他进程所占用的不会释放的资源而处于一种永久等待的状态。简单来说就是两个线程都 在等待对方释放锁。 死锁必要条件 必须同时满足四个条件才会产生死锁 1.互斥条件&…

等级保护测评试题上

一、单选题 1、下列不属于网络安全测试范畴的是&#xff08;C&#xff09; A&#xff0e;结构安全 B.便捷完整性检查 C.剩余信息保护 D.网络设备防护 2、下列关于安全审计的内容说法中错误的是&#xff08;D&#xff09; A&#xff0e;应对网络系统中的网络设备运行情况、网…

陪玩线下找搭子交友小程序开源版开发

陪玩线下找搭子交友小程序开源版开发 模式是一种线上预约、线下体验的多元化社交平台。 范围广泛&#xff0c;包括电竞陪练、户外运动陪伴、音乐艺术交流、旅游伴游、生活技能指导等&#xff0c;覆盖电竞、运动、音乐、游戏、旅游、文化、艺术、学习等多个领域。 无论是亲子互…

最新游戏陪玩语音聊天系统3.0商业升级独立版本源码+搭建教程

首发价值29800元的最新商业版游戏陪玩语音聊天系统3.0商业升级独立版本源码。 下 载 地 址 &#xff1a; runruncode.com/php/19748.html 1. 新增人气店员轮播功能。 2. UI界面优化&#xff0c;包括游戏图标展示和分类展示的改进。 3. 增加动态礼物打赏功能。 4. 新增礼…

分布式与一致性协议之CAP和Paxos算法(一)

CAP 理论 如何使用BASE理论 以InfluxDB系统中DATA节点的集群实现为例。DATA节点的核心功能是读和写&#xff0c;所以基本可用是指读和写的基本可用。我们可以通过分片和多副本实现读和写的基本可用。也就是说&#xff0c;将同一业务的数据先分片&#xff0c;再以多份副本的形…

录屏功能怎么打开?这3个小技巧你得学会

当我们在使用电子设备时&#xff0c;您是否也想将屏幕上的精彩内容分享给他人&#xff0c;又或者想要记录自己的操作步骤。这时&#xff0c;录屏功能就显得尤为重要。那么&#xff0c;录屏功能怎么打开&#xff1f; 接下来&#xff0c;我将为大家详细介绍3种常见的打开录屏功能…

vue知识

一、初始vue Vue核心 Vue简介 初识 (yuque.com) 1.想让Vue工作&#xff0c;就必须创建一个Vue实例&#xff0c;且要传入一个配置对象 2.root容器里的代码依然符合html规范&#xff0c;只不过混入了一些特殊的Vue语法 3.root容器里的代码被称为【Vue模板】 4.Vue实例和容器…

关于远程桌面与3389端口的深度解析

当我们谈论远程桌面和3389端口时&#xff0c;我们实际上是在探讨Windows操作系统的一个核心功能&#xff0c;该功能允许用户通过网络从任何地点远程控制和管理计算机。而3389端口&#xff0c;正是这一功能所依赖的通信端口。 一、远程桌面的工作原理 远程桌面协议&#xff08;R…

gateway全局token过滤器

添加gateway依赖 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-gateway</artifactId></dependency>创建一个tokenFilter 实现全局过滤器GlobalFilter,并且实现fitler方法 Value("${…

qt5-入门-2D绘图-基础

参考&#xff1a; QPainter_w3cschool https://www.w3cschool.cn/learnroadqt/k7zd1j4l.html C GUI Programming with Qt 4, Second Edition 本地环境&#xff1a; win10专业版&#xff0c;64位&#xff0c;Qt 5.12 代码已经测试通过。其他例子日后更新。 目录 基础知识penb…

场外期权交易合法吗?参与场外期权交易需要符合哪些规定?

场外期权交易是合法的金融交易方式&#xff0c;且得到了相应监管部门的支持和规范。它是一种新型的期权交易方式&#xff0c;具有灵活性高、可以满足特定投资者需求的特点。 文章来源/&#xff1a;股指研究院 场外期权是私下协商的&#xff0c;交易双方可根据个人预期、风险承…

《QT实用小工具·四十八》趣味开关

1、概述 源码放在文章末尾 该项目实现了各种样式的趣味开关&#xff1a; 1、爱心形状的switch开关&#xff0c;支持手势拖动、按压效果 2、线条样式的3种开关 项目demo演示如下所示&#xff1a; 使用方式&#xff1a; 1、sapid_switch文件夹加入工程&#xff0c;.pro文件中…

二、VLAN原理和配置

vlan不是协议&#xff0c;是一个技术&#xff0c;虚拟局域网技术&#xff0c;基于802.1q协议。 vlan&#xff08;虚拟局域网&#xff09;&#xff0c;将一个物理的局域网在逻辑上划分成多个广播域的技术。 目录 1.冲突域和广播域 概念 范围 2.以太网帧格式 3.以太网帧封装…

【小程序逆向专栏】某润选房小程序逆向分析

声明 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;不提供完整代码&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; 本文章未…

【YesPMP】平台最新外包项目,设计、小程序、网站等你来接!

YesPMP平台目前最新项目&#xff0c;有感兴趣的用户&#xff0c;可查看项目参与竞标&#xff0c;免费接单&#xff0c;竞标后由项目方直接与服务商联系&#xff0c;双方直接对接。 1.查看项目&#xff1a;网站网页或pc软件 2.查看项目&#xff1a;数据 …

天冕科技亮相第十七届深圳国际金融博览会!

第十七届深圳国际金融博览会在深圳会展中心正式开幕&#xff0c;天冕科技跟随南山区组团集体亮相&#xff0c;充分展现金融活力。此次金博会&#xff0c;南山区政府共遴选了包括天冕科技在内的三家优秀金融科技企业组团参展&#xff0c;以特色与创新的案例展示了辖区金融业发展…

Ansible-Tower安装破解

主机IP地址版本Ansible192.168.169.2042.9.1Tower192.168.169.2043.6.2 基础环境 systemctl disable firewalld --now && setenforce 0 sed -i s/SELINUXenforcing/SELINUXdisabled/g /etc/selinux/config mv /etc/yum.repos.d/CentOS-* /tmp/ curl -o /etc/yum.repo…

AI时代来临,电子行业暗藏新机遇!新人如何逆袭,成为行业翘楚?

随着人工智能技术的飞速发展&#xff0c;程序员的工作正迎来前所未有的变革。去年9月&#xff0c;《大西洋月刊》上的一篇文章&#xff0c;由Kelli Mara Korducki所著&#xff0c;直言不讳地指出&#xff1a;“在人工智能时代&#xff0c;计算机科学已不再是那个稳妥的专业选择…
最新文章