4个解决特定的任务的Pandas高效代码

在本文中,我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务,并以一种好的方式给出结果。

从列表中创建字典

我有一份商品清单,我想看看它们的分布情况。更具体地说:希望得到唯一值以及它们在列表中出现的次数。

Python字典是以这种格式存储数据的好方法。键将是字典,值是出现的次数。

这里可以使用value_counts和to_dict函数,这项任务可以在一行代码中完成。

这里有一个简单的例子来说明这种情况:

 importpandasaspd
 
 grades= ["A", "A", "B", "B", "A", "C", "A", "B", "C", "A"]
 
 pd.Series(grades).value_counts().to_dict()
 
 # output
 {'A': 5, 'B': 3, 'C': 2}

将列表转换为Pandas Series,这是Pandas的一维数据结构,然后应用value_counts函数来获得在Series中出现频率的唯一值,最后将输出转换为字典。这个操作非常高效且易于理解。

从JSON文件创建DataFrame

JSON是一种常用的存储和传递数据的文件格式。

当我们清理、处理或分析数据时,我们通常更喜欢使用表格格式(或类似表格的数据)。由于json_normalize函数,我们可以通过一个操作从json格式的对象创建Pandas DataFrame。

假设数据存储在一个名为data的JSON文件中。一般情况我们都是这样读取:

 importjson
 
 withopen("data.json") asf:
     data=json.load(f)
 
 data
 # output
 {'data': [{'id': 101,
    'category': {'level_1': 'code design', 'level_2': 'method design'},
    'priority': 9},
   {'id': 102,
    'category': {'level_1': 'error handling', 'level_2': 'exception logging'},
    'priority': 8}]}

如果我们将这个变量传递给DataFrame构造函数,它将创建如下的DataFrame,这绝对不是一个可用的格式:

 df=pd.DataFrame(data)

但是如果我们使用json_normalize函数将得到一个整洁的DataFrame格式:

 df=pd.json_normalize(data, "data")

Explode函数

如果有一个与特定记录匹配的项列表。需要重新格式化它,为该列表中的每个项目提供单独的行。

这是一个经典的行分割成列的问题。有许多的不同的方法来解决这个任务。其中最简单的一个(可能是最简单的)是Explode函数。

我们以这个df为例

使用explosion函数并指定列名:

 df_new=df.explode(column="data").reset_index(drop=True)

reset_index会为DataFrame分配一个新的整数索引。

combine_first函数

combine_first函数用于合并两个具有相同索引的数据结构。

它最主要的用途是用一个对象的非缺失值填充另一个对象的缺失值。这个函数通常在处理缺失数据时很有用。在这方面,它的作用与SQL中的COALESCE函数相同。

 df=pd.DataFrame(
     {
         "A": [None, 0, 12, 5, None], 
         "B": [3, 4, 1, None, 11]
     }
 )

我们需要a列中的数据。如果有一行缺少值(即NaN),用B列中同一行的值填充它。

 df["A"].combine_first(df["B"])
 
 # output
 0     3.0
 1     0.0
 2    12.0
 3     5.0
 4    11.0
 Name: A, dtype: float64

可以看到的列A的第一行和最后一行取自列B。

如果我们想要使用3列,我们可以链接combine_first函数。下面的代码行首先检查列a。如果有一个缺失的值,它从列B中获取它。如果列B中对应的行也是NaN,那么它从列C中获取值。

 df["A"].combine_first(df["B"]).combine_first(df["C"])

我们还可以在DataFrame级别使用combine_first函数。在这种情况下,所有缺失的值都从第二个DataFrame的相应值(即同一行,同列)中填充。

 df1=pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}, index=['a', 'b', 'c', 'd'])
 df2=pd.DataFrame({'A': [10, np.nan, 30, 40], 'B': [50, 60, np.nan, 80]}, index=['a', 'b', 'c', 'd'])
 result_df=df1.combine_first(df2)

在合并的过程中,

df1

中的非缺失值填充了

df2

中对应位置的缺失值。这有助于处理两个数据集合并时的缺失值情况。

 MergedDataFrame:
       A     B
 a   1.0   5.0
 b   2.0  60.0
 c  30.0   7.0
 d   4.0   8.0

总结

从计算简单的统计数据到高度复杂的数据清理过程,Pandas都可以快速解决任务。上面的代码可能不会经常使用,但是当你需要处理这种任务时,它们是非常好的解决办法。

https://avoid.overfit.cn/post/1e70db7ef5534ff0801316609a1499b1

作者:Soner Yıldırım

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/212358.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【高效开发工具系列】jackson入门使用

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

指针的综合运用第二期

1.指针数组 char *arr[5];//字符指针数组 int *arr[5];//整型指针数组 int ADD(int x,int y) { return xy; } int LOSE(int a,int b) { return a-b; } int *pa(int,int)ADD; int *pb(int,int)LOSE;//函数指针 int (*pc[2])(int,int){ADD,LOSE};//函数指针数组 //调用直接按数组…

VisionPro---PatMaxTool工具使用

CogPMAlignTool PatMax是一种图案位置搜索技术(识别定位),PatMax图案不依赖于像素格栅,是基于边缘特征的模板匹配而不是基于像素的模板匹配,支持图像中特征的旋转与缩放,边缘特征表示图像中不同区域间界限…

数据链路层之广域网、PPP协议、HDLC协议

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

内部培训平台的系统 PlayEdu搭建私有化内部培训平台

PlayEdu是由白书科技团队多年经营的线上教育系统,专为企业提供的全新企业培训方案 我们的目标是为更多的企业机构搭建私有化内部培训平台,以满足不断增长的培训需求 通过PlayEdu,企业可以有效地组织和管理培训资源,提供高质量的…

Leetcode—1423.可获得的最大点数【中等】

2023每日刷题&#xff08;四十八&#xff09; Leetcode—1423.可获得的最大点数 思路&#xff1a;逆向求长为 n−k 的连续子数组和的最小值 参考灵茶山艾府题解 实现代码 class Solution { public:int maxScore(vector<int>& cardPoints, int k) {int mins 0, …

nodejs基于vue的社区物业缴费报修管理系统7vwc6

运行软件:vscode 前端nodejsvueElementUi 语言 node.js 框架&#xff1a;Express/koa 前端:Vue.js 数据库&#xff1a;mysql 开发软件&#xff1a;VScode/webstorm/hbuiderx均可 数据库用MySQL,后台用vue框架 基本要求&#xff1a; 1. 对项目进行详细实际的需求分析。 2. 在网…

Java项目调用C/C++ SDK的方案汇总

Java项目调用C/C SDK的方案汇总 背景调研JNIJNativeJNAJavaCPP 背景 Java项目中需要调用到一个C项目&#xff0c;于是对目前通用的解决方案做了一些调研&#xff0c;这里做一个汇总。 调研 JNI JNI&#xff1a;Java Native Interface&#xff0c;JNI是一套编程接口&#xf…

某60区块链安全之Create2实战一学习记录

区块链安全 文章目录 区块链安全Create2实战一实验目的实验环境实验工具实验原理实验内容Create2实战一 实验步骤分析合约源代码漏洞Create2实战一 实验目的 学会使用python3的web3模块 学会分析以太坊智能合约Create2引发的漏洞及其利用 找到合约漏洞进行分析并形成利用 实…

基于SpringBoot + vue的在线视频教育平台

qq&#xff08;2829419543&#xff09;获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;springboot 前端&#xff1a;采用vue技术开发 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xf…

肖sir__mysql之视图__009

mysql之视图 一、什么是视图 视图是一个虚拟表&#xff08;逻辑表&#xff09;&#xff0c;它不在数据库中以存储形式保存&#xff08;本身包含数据&#xff09;&#xff0c;是在使用视图的时候动态生成。 二、视图作用 1、查询数据库中的非常复的数据 例如&#xff1a;多表&a…

微信支付/

微信支付准备工作 3.2.1 如何保证数据安全&#xff1f; 完成微信支付有两个关键的步骤&#xff1a; 第一个就是需要在商户系统当中调用微信后台的一个下单接口&#xff0c;就是生成预支付交易单。 第二个就是支付成功之后微信后台会给推送消息。 这两个接口数据的安全性&#x…

论文解读--Visual Lane Tracking and Prediction for Autonomous Vehicles

自动驾驶汽车视觉车道线跟踪和预测 摘要 我们提出了一种用于自动驾驶汽车跟踪水平道路车道标记位置的可视化方法。我们的方法是基于预测滤波的。预测步骤估计在每个新的图像帧中期望的车道标记位置。它也是基于汽车的运动学模型和嵌入式测程传感器产生的信息。使用适当准备的测…

区块链媒体:Web3.015个方法解析-华媒舍

Web3.0是第三代互联网的发展阶段&#xff0c;相较于Web2.0&#xff0c;它具有更高的可信性、安全性和去中心化特点。在Web3.0时代&#xff0c;推广变得更为重要&#xff0c;因为吸引用户和提高品牌知名度对于在竞争激烈的市场中脱颖而出至关重要。本文将揭秘推广Web3.0的15个秘…

Mysql安全之基础合规配置

一、背景 某次某平台进行安全性符合型评估时&#xff0c;列出了数据库相关安全选项&#xff0c;本文特对此记录&#xff0c;以供备忘参考。 二、安全配置 2.1、数据库系统登录时的用户进行身份标识和鉴别&#xff1b; 1&#xff09;对登录Mysql系统用户的密码复杂度是否有要…

CSS3 修改滚动条样式

上图&#xff1a; 上代码&#xff1a; /* 修改垂直滚动条 */ .right-list::-webkit-scrollbar {width: 2px; /* 修改宽度 */height: 5px; /* 修改高度 */ } /* 修改滚动条轨道背景色 */ .right-list::-webkit-scrollbar-track {background-color: #f1f1f1; } /* 修改滚动条滑块…

2023-12-03 LeetCode每日一题(可获得的最大点数)

2023-12-03每日一题 一、题目编号 1423. 可获得的最大点数二、题目链接 点击跳转到题目位置 三、题目描述 几张卡牌 排成一行&#xff0c;每张卡牌都有一个对应的点数。点数由整数数组 cardPoints 给出。 每次行动&#xff0c;你可以从行的开头或者末尾拿一张卡牌&#x…

吴恩达《机器学习》11-1-11-2:首先要做什么、误差分析

一、首先要做什么 选择特征向量的关键决策 以垃圾邮件分类器算法为例&#xff0c;首先需要决定如何选择和表达特征向量 &#x1d465;。视频提到的一个示例是构建一个由 100 个最常出现在垃圾邮件中的词构成的列表&#xff0c;根据这些词是否在邮件中出现来创建特征向量&…

【MATLAB】mlptdenoise分解+FFT+HHT组合算法

有意向获取代码&#xff0c;请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 MLPT Denoise是一种基于小波变换的信号分解算法&#xff0c;可以将信号分解为多个具有不同频率特性的小波分量&#xff0c;并对每个小波分量进行频域分析。它基于最大似然参数调整&#…

Fiddler抓包工具之fiddler设置弱网测试

弱网测试 概念&#xff1a;弱网看字面意思就是网络比较弱&#xff0c;我们通称为信号差&#xff0c;网速慢。 意义&#xff1a;模拟在地铁、隧道、电梯和车库等场景下使用APP &#xff0c;网络会出现延时、中断和超时等情况。 Fiddler弱网测试流程&#xff1a; 一、限速操作…
最新文章