首页 > 编程学习 > 数据预处理

数据预处理

发布时间:2022/9/1 23:28:37
data.xlsx 数据如下
1 # -*- coding: utf-8 -*-
 2 # 我们必须进行数据预处理 它直接关系到分析结果的准确性 处理缺失值 数据重复值
 3 # 检查缺失值  检测缺失值最简单的方法就是调用info()方法 通过观察每一列的非空值 即可判断出哪些列存在缺失值
 4 # any() 一个序列中有一个True,则返回True。否则返回False
 5 import pandas as pd
 6 
 7 df = pd.read_excel('file/data.xlsx')
 8 
 9 
10 # 还有一种检测是否存在缺失值的方法 既isnull()方法搭配any()方法
11 def isnull_demo():
12     print(df)
13     print(df.isnull())
14 
15 
16 # isnull() 对于缺失值 返回True;对于非缺失值,返回False
17 def isnull_demo_any():
18     print(df.isnull().any())
19 
20 
21 # 检测重复数据 duplicated()方法 作用:可以检测重复值
22 def duplicated_demo():
23     print(df.duplicated())
24     print(df.duplicated().any())
25 
26 
27 # 缺失值处理 在python中 通常使用NaN表示缺失值  可以用pandas模块中的fillna()方法来填充数据
28 # 可以用dropna()方法来删除缺失值
29 def fillna_demo():
30     df1 = df.fillna({'数学': 0})
31     df2 = df.dropna()
32     print(df1)
33     print(df2)
34 
35 
36 # drop_duplicates()方法来删除重复数据
37 def drop_duplicates_demo():
38     df1 = df.fillna({'数学': 0})
39     df2 = df.drop_duplicates()
40     print(df1)
41     print(df2)
42 
43 
44 # 数据替换 replace()方法 实现数据替换 例如replace(A, B) 表示将A替换为B
45 def replace_demo():
46     df['数学'] = df['数学'].replace(0, 150)
47     print(df)
48 
49 
50 # isnull_demo()
51 # isnull_demo_any()
52 # duplicated_demo()
53 # fillna_demo()
54 # drop_duplicates_demo()
55 replace_demo()

 

Copyright © 2010-2022 mfbz.cn 版权所有 |关于我们| 联系方式|豫ICP备15888888号