[python] 基于Tablib库处理表格数据

Tablib是一个用于处理电子表格(如 Excel,CSV,JSON)的Python 库。它提供了一种简单而强大的方式来操作和处理数据。利用Tablib,我们可以轻松地读取、写入、过滤和转换各种类型的电子表格数据。Tablib 具有一致且易于使用的 API,以在不同的数据格式之间进行无缝转换。比如,Tablib可以将数据从Excel表格导入为Python对象,然后将其转换为JSON或CSV格式,并进行相应的操作和分析。此外Tablib还支持对数据进行排序、筛选和合并等常见操作。Tablib官方仓库地址为:tablib,Tablib官方文档地址为:tablib-doc。

Tablib需要在Python3.6+版本下安装,安装命令如下:

pip install tablib

import tablib
# 查看版本
tablib.__version__
'3.4.0'

文章目录

  • 1 Tablib使用
    • 1.1 表格创建
    • 1.2 数据导入与导出
    • 1.3 多表管理
    • 1.4 进阶使用
  • 2 参考

1 Tablib使用

1.1 表格创建

创建数据结构

# 创建表
data = tablib.Dataset()
type(data)
tablib.core.Dataset
# 查看表格名字,默认为空
data.title 
# 设置表的名字
data.title = 'data'
data.title
'data'

数据添加

# 添加行
data.append(['John', 28])
data.append(['Tom', 16])
data.append(['Jane', 32])
# 查看数据,list格式
data.dict
# 或者
# print(data)
[['John', 28], ['Tom', 16], ['Jane', 32]]
# 添加标题行
data.headers = ['Name', 'Age']
# data.dict
print(data)
Name|Age
----|---
John|28 
Tom |16 
Jane|32 
# 添加列
# 需要和当前行数一致
data.append_col(['USA', 'UK','UK'], header='Country')
# data.dict
print(data)
Name|Age|Country
----|---|-------
John|28 |USA    
Tom |16 |UK     
Jane|32 |UK     

选择行或列

# 选择第一行
data[0]
('John', 28, 'USA')
# 选择第一行第三列
data[0][2]
'USA'
# 选择列
data['Age']
[28, 16, 32]
# 获得表头
data.headers
['Name', 'Age', 'Country']
# 基于索引获得列
data.get_col(0)
['John', 'Tom', 'Jane']

删除行或列

# 删除列
del data['Country']
# 删除行
# del data[:-1]
print(data)
Name|Age
----|---
John|28 
Tom |16 
Jane|32 

行列高级操作

# 表格转置
transposed_data = data.transpose()
print(transposed_data)
Name|John|Tom|Jane
----|----|---|----
Age |28  |16 |32  
# 读取数据维度
data.width,data.height
(2, 3)
# 按照字段排序
# 年龄从大到小排序
data = data.sort("Age",reverse=True)
print(data)
Name|Age
----|---
Jane|32 
John|28 
Tom |16 
# 计算平均年龄
ages = data['Age']
float(sum(ages)) / len(ages)
25.333333333333332
# 移除第一行
tmp = data.lpop()
print(data)
Name|Age
----|---
John|28 
Tom |16 
# 第一行添加数据
data.lpush(list(tmp))
print(data)
Name|Age
----|---
Jane|32 
John|28 
Tom |16 
# 在最左侧插入一列数据
new_column = ['Engineer', 'Doctor','Doctor']
data.lpush_col(new_column, header='Profession')
print(data)
Profession|Name|Age
----------|----|---
Engineer  |Jane|32 
Doctor    |John|28 
Doctor    |Tom |16 
# 移除最后一行
# data.pop()
# print(data)
# 移除重复行
# 创建数据集
data = tablib.Dataset()
data.headers = ['Name', 'Age']
data.append(['Alice', 25])
data.append(['Alice', 30])
data.append(['Alice', 25])  # 重复行

# 去除重复行,必须所有列值一样
data.remove_duplicates()

print(data)
Name |Age
-----|---
Alice|25 
Alice|30 

表格合并

# 创建两个表格
data1 = tablib.Dataset()
data1.headers = ['Name', 'Age']
data1.append(['Alice', 25])
data1.append(['Bob', 30])

data2 = tablib.Dataset()
data2.headers = ['Name', 'Occupation']
data2.append(['Alice', 'Engineer'])
data2.append(['Bob', 'Doctor'])
# 按行合并
# 使用stack方法合并两个表格
stacked_data = data1.stack(data2)
print(stacked_data)
Name |Age     
-----|--------
Alice|25      
Bob  |30      
Alice|Engineer
Bob  |Doctor  
# 按列合并
# 两个表格行数需要一致
# 使用stack_cols方法合并两个表格的列
stacked_cols_data = data1.stack_cols(data2)
print(stacked_cols_data)
Name |Age|Name |Occupation
-----|---|-----|----------
Alice|25 |Alice|Engineer  
Bob  |30 |Bob  |Doctor    

1.2 数据导入与导出

数据导出

Tablib使得用户可以根据具体需求将数据灵活地导出到不同的环境中,并与其他工具进行无缝集成和交互。转换的结果是这些格式的对象表示而不是存为本地文件。这些格式包括但不限于:

  • CSV:常见的电子表格格式,每个字段由逗号分隔。
  • JSON:一种常见的数据交换格式,以键值对的形式存储数据。
  • Excel:电子表格格式,需要额外安装库,可以包含多个工作表,并支持公式和图表等功能。
  • YAML:一种易读的数据序列化格式,常用于配置文件。
  • HTML:用于创建网页的标记语言。
  • Pandas DataFrame:Pandas是另一个Python库,用于数据处理和分析。Tablib支持将数据导出为Pandas DataFrame。

Tablib提供了两种方式将数据导出为其他格式,一种是调用export函数,一种是调用自带属性。如下所示data.export(‘csv’) 和data.csv都可以用于获取Dataset数据的CSV表示:

data.export('csv')
data.csv

具体示例代码如下:

# 创建表格
data = tablib.Dataset()
data.headers = ['Name', 'Age']
data.append(['John', 28])
data.append(['Tom', 16])
data.append(['Jane', 32])
# 导出为csv字符流
data_csv = data.export('csv')
print(type(data_csv))

# 导出数据到本地csv文件
with open('data.csv', 'w') as f:
    f.write(data_csv)
<class 'str'>
# 导出为json字符串
data_json = data.export('json')
type(data_json)

# 将json字符串解析为Python对象
import json
data_json = json.loads(data_json)
print(data_json)
[{'Name': 'John', 'Age': 28}, {'Name': 'Tom', 'Age': 16}, {'Name': 'Jane', 'Age': 32}]
# 将数据集对象保存为json文件
with open('data.json', 'w') as f:
    f.write(data.export('json'))
# 保存为yaml文件
with open('data.yml', 'w') as f:
    f.write(data.export('yaml'))
# 将数据集保存为xls文件,注意使用wb模式
# 需要安装额外库
# pip install xlrd
# pip install xlwt
with open('data.xls', 'wb') as f:
    f.write(data.export('xls'))

with open('data.xlsx', 'wb') as f:
    f.write(data.export('xlsx'))
# 转换为html
# 需要安装MarkupPy库
# pip install MarkupPy 
with open('data.html', 'w') as f:
    f.write(data.export('html'))
# 转换为pandas的dataframe
# 需要安装Pandas库
df = data.export('df')
df.head()
NameAge
0John28
1Tom16
2Jane32

数据导入

我们可以使用tablib库导入多种格式的文件,以初始化tablib的数据对象。如下所示:

with open('data.csv', 'r') as fh:
    imported_data = tablib.Dataset().load(fh)
print(imported_data)
Name|Age
----|---
John|28 
Tom |16 
Jane|32 

对于表格类格式,如csv格式,也可以不导入标题行,即不将第一行作为标题行,如下所示:

with open('data.csv', 'r') as fh:
    # headers=False不导入标题行
    imported_data = tablib.Dataset().load(fh,headers=False)
print(imported_data)
Name|Age
John|28 
Tom |16 
Jane|32 

对于支持多表的xls、xlsx,当前默认打开第一个表,注意使用rb模式。多表管理见下一节。

with open('data.xls', 'rb') as fh:
    imported_data =  tablib.Dataset().load(fh, 'xls')
print(imported_data)

Name|Age 
----|----
John|28.0
Tom |16.0
Jane|32.0

1.3 多表管理

在Tablib中,Databook是一种数据结构,用于组织和管理多个数据表(Data Table。Databook提供了一种方便的方式来操作和处理多个数据表

创建Databook

# 创建Databook
databook = tablib.Databook()
# 创建第一个数据表
data_table1 = tablib.Dataset()

# 设置数据表的列和数据
data_table1.headers = ['Name', 'Age']
data_table1.append(['John', 25])
data_table1.append(['Alice', 30])
# 设置表名
data_table1.title = "table1"

# 添加数据表到 Databook
databook.add_sheet(data_table1)
# 创建二个数据表
data_table2 = tablib.Dataset()

# 设置数据表的列和数据
data_table2.headers = ['Name', 'Age']
data_table2.append(['Jane', 34])
data_table2.append(['Mike', 14])
# 设置表名
data_table2.title = "table2"

# 添加数据表到 Databook
databook.add_sheet(data_table2)
# 可以利用现有表一次性创建Databoook
tablib.Databook((data_table1, data_table2))
<databook object>

查看databook

# 查看子表数量
databook.size
2
# 查看各表
databook.sheets()
[<table1 dataset>, <table2 dataset>]

根据索引获得表

for index,table in enumerate(databook.sheets()):
    print(f" \ntable{index}")
    print(table)
table0
Name |Age
-----|---
John |25 
Alice|30 
 
table1
Name|Age
----|---
Jane|34 
Mike|14 

保存与导入

databook支持保存xlsx和xls文件,但是导入仅支持xlsx文件。

# 保存为xlsx文件
with open('databook.xlsx', 'wb') as f:
    f.write(databook.export('xlsx'))
# 多表导入
with open(r'databook.xlsx', 'rb') as fh:
    databook = tablib.Databook().load(fh, 'xlsx')
print(databook.sheets())
[<table1 dataset>, <table2 dataset>]

1.4 进阶使用

动态列

Talblib允许在数据表格中随意创建和管理动态列。这些列不需要预先定义,可以根据需要随时添加、删除和修改。如下所示根据随机函数设置列:

# 导入数据
with open('data.csv', 'r') as fh:
    data = tablib.Dataset().load(fh)
print(data)
Name|Age
----|---
John|28 
Tom |16 
Jane|32 
import random

# 随机设置分数
def random_grade(row):
    # 根据传入的行设置不同数据标准
    if int(row[1]) > 30:
        return (random.randint(59,100)/100.0)
    else:
        return (random.randint(60,99)/100.0)

data.append_col(random_grade, header='Grade')
print(data)
Name|Age|Grade
----|---|-----
John|28 |0.65 
Tom |16 |0.99 
Jane|32 |0.79 

数据过滤

Tablib提供了filter方法,以根据数据集的标签(tags)来过滤数据。

fruits = tablib.Dataset()  

fruits.headers = ['name', 'color'] 
# 添加tags为fruit与sour的行
fruits.append(['tomato', 'red'], tags=['fruit', 'sour']) 
fruits.append(['strawberry', 'red'], tags=['fruit', 'sweet' ]) 
fruits.append(['corn', 'yellow'], tags=['vegetable', 'sweet']) 

# 转换为其他格式,tags属性不会跟随转换
print(fruits.yaml)
- {color: red, name: tomato}
- {color: red, name: strawberry}
- {color: yellow, name: corn}
# 过滤出标签为vegetable的数据
fruits.filter(['vegetable']).df  
namecolor
0cornyellow
# 过滤出标签为vegetable或sweet的数据
fruits.filter(['vegetable', 'sweet']).df  
namecolor
0strawberryred
1cornyellow
# 先过滤出标签为fruit,再过滤为sour的数据
fruits.filter(['fruit']).filter(['sour']).df  
namecolor
0tomatored

分割符

Tablib提供了append_separator函数,以在excel表格中添加分隔符,如下所示:

# Daniel和Suzie的测试数据
daniel_tests = [
    ('11/24/09', 'Apple', 'Red'),
    ('05/24/10', 'Banana', 'Yellow')
]

suzie_tests = [
    ('11/24/09', 'Orange', 'Orange'),
    ('05/24/10', 'Grapes', 'Purple')
]

# 创建新的数据集
tests = tablib.Dataset()
tests.headers = ['Date', 'Fruit Name', 'Color']

# 添加分隔符
tests.append_separator('Fruits A')  
for test_row in daniel_tests:
   tests.append(test_row)

# 添加分隔符
tests.append_separator('')  
for test_row in suzie_tests:
   tests.append(test_row)

# 将数据集写入磁盘,以xls格式存储
with open('fruits.xls', 'wb') as f:
    f.write(tests.export('xls'))

通过展示xls数据,可以看到在某些行添加了空行数据。


# 导入pandas库
import pandas as pd

# 从xls文件中读取数据,并将其存储在DataFrame中
pd.read_excel('fruits.xls', keep_default_na=False)

DateFruit NameColor
0Fruits A
111/24/09AppleRed
205/24/10BananaYellow
3
411/24/09OrangeOrange
505/24/10GrapesPurple

格式化列

Tablib提供add_formatter函数用于向Dataset对象添加自定义格式化程序,以便在导出数据时按照指定格式进行格式化。

# 创建一个空的 Dataset 对象
data = tablib.Dataset()

# 添加数据到 Dataset
data.headers = ['name','age','role']
data.append(['John', 28, 'Developer'])
data.append(['Amy', 25, 'Designer'])

# 定义一个自定义的格式化函数
def custom_formatter(val):
    if isinstance(val, int):
        return f'Age: {val}'
    elif isinstance(val, str):
        return val.upper()
    else:
        return str(val)

# 添加自定义格式化函数到 Dataset
# 第一个参数可以为列号
data.add_formatter(0,custom_formatter)
# 如果有列名,也可以指定列名
data.add_formatter('age',custom_formatter)

# 导出数据并应用自定义格式化函数
data.df
nameagerole
0JOHNAge: 28Developer
1AMYAge: 25Designer

创建子表格

# 创建表格
data = tablib.Dataset()
data.headers = ['Name', 'Age','Profession']
data.append(['Alice', 25, 'Doctor'])
data.append(['Bob', 30, 'Doctor'])
data.append(['Jack', 28, 'Engineer'])
# subset方法用于从现有的数据集中选择子集
# rows表示行号,rows=[0, 2]表示选择第0行和第2行
sub_data = data.subset(rows=[0, 2], cols=['Name', 'Profession'])
sub_data.df
NameProfession
0AliceDoctor
1JackEngineer

2 参考

  • tablib
  • tablib-doc。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/205664.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

力扣295. 数据流的中位数(java,堆解法)

Problem: 295. 数据流的中位数 文章目录 题目描述思路解题方法复杂度Code 题目描述 思路 由于该题目的数据是动态的我们可以维护两个堆来解决该问题 1.维护一个大顶堆&#xff0c;一个小顶堆 2.每个堆中元素个数接近n/2&#xff1b;如果n是偶数&#xff0c;两个堆中的数据个数…

SpringCloud核心组件

Eureka 注册中心&#xff0c;服务的注册与发现 Feign远程调用 Ribbon负载均衡&#xff0c;默认轮询 Hystrix 熔断 降级 Zuul微服务网关&#xff08;这个组件负责网络路由&#xff0c;可以做统一的降级、限流、认证授权、安全&#xff09; Eureka 微服务的功能主要有以下几…

LLM之Agent(二):BabyAGI的详细教程

BabyAGI是一个 AI 支持的任务管理系统&#xff08;Python脚本&#xff09;&#xff0c;使用 OpenAI 和 Pinecone API 创建, 优先级排序和执行任务。该系统背后的主要思想是基于先前任务的结果和预定义的目标创建任务。脚本然后使用 OpenAI 的自然语言处理&#xff08;NLP&#…

数据结构学习笔记——二叉树的遍历和链式存储代码实现二叉树

目录 一、二叉树的遍历&#xff08;一&#xff09;二叉树的先序遍历&#xff08;DLR&#xff09;&#xff08;二&#xff09;二叉树的中序遍历&#xff08;LDR&#xff09;&#xff08;三&#xff09;二叉树的后序遍历&#xff08;LRD&#xff09;&#xff08;四&#xff09;二…

【古月居《ros入门21讲》学习笔记】07_创建工作空间和功能包

目录 说明&#xff1a; 1. 工作空间(workspace) 结构&#xff1a; 2. 创建工作空间和功能包 创建工作空间 编译工作空间 创建功能包 设置环境变量 3. 注意 同一个工作空间下&#xff0c;不能存在同名的功能包&#xff1b; 不同工作空间下&#xff0c;可以存在同名的功…

学习程序员必知必会的基础算法(收藏)

近年来学习python的程序员愈来愈多&#xff0c;有的同学选择了python培训机构&#xff0c;也有的人觉得自己天赋好选择了自学不管大家怎么去学习&#xff0c;在学习python基础的过程中&#xff0c;肯定离不开的就是基础算法&#xff0c;今天就为大家介绍几大学习中的基础算法。…

ffmpeg开发 环境配置

ffmpeg开发简图 1 下载ffmpeg开发包 https://ffmpeg.org/download.html 包含三个版本&#xff1a;Static、Shared以及Dev Static --- 包含3个应用程序&#xff1a;ffmpeg.exe , ffplay.exe , ffprobe.exe&#xff0c;体积都很大&#xff0c;相关的DLL已经被编译到exe里面去…

TDA4VM EVM开发板调试笔记

文章目录 1. 前言2. 官网资料导读3. 安装 Linux SDK4. 制作SD 启动卡5. 验证启动1. 前言 TDA4作为一般经典的车规级SOC芯片,基于它的低阶智驾方案目前成为各家智驾方案公司的量产首选,这也使得基于TDA4的开发需求陡增,开发和使用TDA4既要熟悉Linux驱应用开发,还要熟悉传统…

自建CA实战之 《0x02 Nginx 配置 https双向认证》

自建CA实战之 《0x02 Nginx 配置 https双向认证》 上一章节我们已经实现了Nginx上配置https单向认证&#xff0c;主要场景为客户端验证服务端的身份&#xff0c;但是服务端不验证客户端的身份。 本章节我们将实现Nginx上配置https双向认证&#xff0c;主要场景为客户端验证服…

基于Java SSM框架+Vue实现汉服文化平台网站项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架Vue实现汉服文化平台系统演示 摘要 本论文主要论述了如何使用JAVA语言开发一个汉服文化平台网站 &#xff0c;本系统将严格按照软件开发流程进行各个阶段的工作&#xff0c;采用B/S架构&#xff0c;面向对象编程思想进行项目开发。在引言中&#xff0c;作者将…

在gazebo里搭建一个livox mid360 + 惯导仿真平台测试 FAST-LIO2

在gazebo里搭建一个livox mid360 惯导仿真平台测试 FAST-LIO2 前言立方体平台加入 livox mid360 激光雷达加入IMU模块调整底盘大小 并设计调用接口测试 Fast-Lio2 前言 livox mid360 在官网一直没有货&#xff0c;在gazebo里可以仿真该雷达形式的点云。 但是其只发布雷达的数…

【电源专题】DC/DC电源FB分压电阻设计注意事项

在DC/DC电源中我们不可避免的会遇到FB分压电阻的取值,PCB设计等问题。如下所示随意打开一份同步降压稳压器规格书TPS56320X,规格书中的简化电路原理图就已经存在VFB管脚上的两个分压电阻。 很多工程师朋友们会误认为分压电阻只是简单的将输出电压缩小到参考电压,通过此电压来…

电子学会C/C++编程等级考试2023年03月(三级)真题解析

C/C++等级考试(1~8级)全部真题・点这里 第1题:和数(2023.3) 给定一个正整数序列,判断其中有多少个数,等于数列中其他两个数的和。 比如,对于数列1 2 3 4, 这个问题的答案就是2, 因为3 = 2 + 1, 4 = 1 + 3。 时间限制:10000 内存限制:65536输入 共两行,第一行是数列中…

【接口自动化】selenium库也有大用场(获取cookie)

相信有些童鞋在做接口、或者说接口自动化测试的过程中会遇到这样的场景&#xff1a;测试的接口&#xff0c;必须是需要登录后才能发起请求成功的。 那么怎么解决呢&#xff1f; 本着团队协作的精神&#xff0c;我们就去让开发同学开个后门&#xff0c;给你个“万能”值&#x…

AntDB“超融合+流式实时数仓”——颠覆50年未变的数据库内核

流式处理引擎&#xff0c;颠覆50年未变的数据库内核 流式处理的概念 2001年9月11日&#xff0c;美国世贸大楼被袭击&#xff0c;美国国防部第一次将“主动预警”纳入国防的宏观战略规划。而IBM作为当时全球最大的IT公司&#xff0c;承担了大量基础支撑软件研发的任务。其中200…

R语言单因素方差分析+差异显著字母法标注+逐行详细解释

R语言单因素方差分析 代码如下 df <- read.csv("data.csv",header TRUE,row.names 1) library(reshape2) df <- melt(df,idc()) names(df) <- c(trt, val) df aov1 <- aov(val~trt,datadf) summary(aov1)library(agricolae) data <- LSD.test(aov…

双指针算法总结

双指针算法分为两类&#xff1a;第一类指向一个序列&#xff08;更多的情况&#xff09;&#xff0c;第二类指向两个序列。 基本的代码框架是&#xff1a; for (i 0, j 0; i < n; i) {while (j < i && check(i, j)) j;// 每道题目的具体逻辑 } 核心思想&…

探索使用Quarkus和MicroProfile 构建Kubernetes原生微服务的秘诀!

Kubernetes Native Microservices with Quarkus and MicroProfile 是一个基于Kubernetes原生微服务的开发框架&#xff0c;它结合了Quarkus和MicroProfile的优点&#xff0c;提供了一个高效、可扩展、易于管理的微服务解决方案。 Quarkus是一个针对Java虚拟机&#xff08;JVM&…

代码demo-内部订单批量投料

为了简化用户操作&#xff0c;开发内部订单批量投料功能 用户可以批量上传&#xff0c;或者选择对应的物料&#xff0c;输入库位和内部订单号后进行过账操作 对用户选择的内部订单做校验&#xff0c;内部订单是否正确 内部订单的公司是否和工厂对应的公司一致等等 下面展示…

[NOIP2016 普及组] 回文日期

枚举好题&#xff0c;直接枚举答案 看看在不在范围内就行了 注意二月份 92200229是合法的~ 82200228也是合法的&#xff01; #include<bits/stdc.h> using namespace std;map<int,int>mp;int main() {mp[1] mp[3] mp[5] mp[7] mp[8] mp[10] mp[12] 31;mp[…
最新文章