python3 获取某个文件夹所有的pdf文件表格提取表格并一起合并到excel文件

下面是一个完整的示例,其中包括了merge_tables_to_excel函数的定义,并且假设该函数的功能是从每个PDF文件中提取第一个表格并将其合并到一个Excel文件中:

import os  
from pathlib import Path  
import pandas as pd  
import pdfplumber  
  
def extract_first_table_from_pdf(pdf_path):  
    try:  
        with pdfplumber.open(pdf_path) as pdf:  
            for page in pdf.pages:  
                tables = page.extract_tables()  
                if tables:  
                # tables[0]   pdf中的第一个表格,如果pdf有第二个表格你可以修改为tables[1] 根据你需求来调整
                    return tables[0]   
    except Exception as e:  
        print(f"Error reading {pdf_path}: {e}")  
        return None  
  
def merge_tables_to_excel(pdf_files, excel_path):  
    all_tables = []  
    for pdf_path in pdf_files:  
        first_table = extract_first_table_from_pdf(pdf_path)  
        if first_table:  
            df_table = pd.DataFrame(first_table[1:], columns=first_table[0])  
            all_tables.append(df_table)  
      
    if all_tables:  
        merged_tables_df = pd.concat(all_tables, ignore_index=True)  
        merged_tables_df.to_excel(excel_path, sheet_name='Merged Tables', index=False)  
        print(f"Tables have been saved to {excel_path}")  
    else:  
        print("No tables found in the PDF files.")  
  
def find_all_pdf_files(directory):  
    return list(Path(directory).glob("*.pdf"))  
  
if __name__ == "__main__":  
    # 指定PDF文件夹路径  
    pdf_folder = Path("refer")  
    # 获取文件夹中所有的PDF文件  
    pdf_files = find_all_pdf_files(pdf_folder)  
      
    # 打印找到的PDF文件列表  
    print("Found PDF files:", [str(file) for file in pdf_files])  
      
    # 指定要保存的Excel文件路径  
    excel_path = "merged_tables.xlsx"  
      
    # 提取并合并表格数据到Excel文件  
    merge_tables_to_excel(pdf_files, excel_path)

运行结果如图所示:
在这里插入图片描述
在这里插入图片描述

如果你想要遍历一个文件夹中的所有子文件夹,并获取每个子文件夹中的PDF文件,你可以使用递归函数来实现这个功能。下面是一个修改后的代码示例,它会递归地搜索指定目录及其所有子目录中的PDF文件:

import os  
from pathlib import Path  
  
def find_all_pdf_files(directory):  
    pdf_files = []  
    for root, dirs, files in os.walk(directory):  
        for file in files:  
            if file.lower().endswith('.pdf'):  
                pdf_files.append(Path(root) / file)  
    return pdf_files  
  
if __name__ == "__main__":  
    # 指定PDF文件夹路径  
    pdf_folder = Path("refer")  
      
    # 获取文件夹中所有的PDF文件,包括子文件夹中的PDF文件  
    pdf_files = find_all_pdf_files(pdf_folder)  
      
    # 打印找到的PDF文件列表  
    print("Found PDF files:", [str(file) for file in pdf_files])  
      
    # 指定要保存的Excel文件路径  
    excel_path = "merged_tables.xlsx"  
      
    # 提取并合并表格数据到Excel文件  
    merge_tables_to_excel(pdf_files, excel_path)

在这个示例中,find_all_pdf_files 函数使用 os.walk() 来递归遍历目录和子目录。os.walk() 会为每个目录返回一个三元组,包含当前目录的路径、当前目录下的子目录名列表,以及当前目录下的文件名列表。函数遍历每个文件名,检查它是否以 .pdf 结尾(不区分大小写),如果是,则将其添加到 pdf_files 列表中。

请确保你的 merge_tables_to_excel 函数能够处理多个PDF文件中的表格合并到Excel文件的逻辑。如果你需要更具体的帮助来定义这个函数,请提供更多关于你希望如何合并表格的信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/381989.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据分享】1929-2023年全球站点的逐日降水量数据(Shp\Excel\免费获取)

气象数据是在各项研究中都经常使用的数据,气象指标包括气温、风速、降水、湿度等指标,说到常用的降水数据,最详细的降水数据是具体到气象监测站点的降水数据! 有关气象指标的监测站点数据,之前我们分享过1929-2023年全…

MYSQL存储过程(含入参、出参)

1、创建库存表语句 -- eladmin.t_stock definitionCREATE TABLE t_stock (id bigint(20) NOT NULL AUTO_INCREMENT,quantity bigint(20) NOT NULL,PRIMARY KEY (id) ) ENGINEInnoDB AUTO_INCREMENT4101 DEFAULT CHARSETutf8mb4 COLLATEutf8mb4_bin; id为主键,便于…

【Java EE初阶十二】网络初识

1. 网络发展史 网络发展的几个主要时期: 单机时代->局域网时代->广域网时代->移动互联网时代 随着时代的发展,越来越需要计算机之间互相通信,共享软件和数据,即以多个计算机协同工作来完成 业务,就有了网络互…

基于 multiprocessing.dummy 的多线程池与单线程访问多网页的比较示例

一、示例代码: from multiprocessing.dummy import Pool as ThreadPool import time import requestsurls [ # URL队列,通过多线程访问http://www.python.org,http://www.python.org/about/,http://www.…

每日五道java面试题之java基础篇(二)

第一题. 为什么说 Java 语⾔“编译与解释并存”? ⾼级编程语⾔按照程序的执⾏⽅式分为编译型和解释型两种。 简单来说,编译型语⾔是指编译器针对特定的操作系统将源代码⼀次性翻译成可被该平台执⾏的机器码;解释型语⾔是指解释器对源程序逐…

【正在更新】从零开始认识语音识别:DNN-HMM混合系统语音识别(ASR)原理

摘要 | Abstract TO-BE-FILLED 1.前言 | Introduction 近期想深入了解语音识别(ASR)中隐马尔可夫模型(HMM)和深度神经网络-隐马尔可夫(DNN-HMM)混合模型,但是尽管网络上有许多关于DNN-HMM的介绍,如李宏毅教授的《深度学习人类语言处理》[1],…

问题:超声波纵波斜入射时,当入射角大于第一临界角小于第二临界角时,在第二介质内只有折射横波。 #微信#经验分享#其他

问题:超声波纵波斜入射时,当入射角大于第一临界角小于第二临界角时,在第二介质内只有折射横波。 参考答案如图所示

SpringBoot 接入讯飞星火大模型实现对话

申请地址 https://xinghuo.xfyun.cn/sparkapi?scrprice 免费申请200万Token 开发文档 https://www.xfyun.cn/doc/spark/Web.html#_1-接口说明 页面最下面有相关demo可以参考 介绍 接口是以套接字的形式分段返回,而且非http请求,比较繁琐,官…

Sam Altman计划筹集5至7万亿美元;OPPO发布AI时代新功能

🦉 AI新闻 🚀 Sam Altman计划筹集5至7万亿美元,建立全球芯片帝国 摘要:Sam Altman宣布计划筹集5至7万亿美元来建立全球芯片帝国,以满足日益增长的AI基础设施需求。他已在全球寻求资金,包括中东土豪。此外…

开发JSP自定义标记

开发JSP自定义标记 您已经学习了如何用JavaBean处理JSP页面的业务逻辑。除此以外,您还可以用自定义标记处理JSP应用程序中反复出现的业务逻辑要求。 tag是程序中使用的执行重复性任务的可重用单元。例如, 是使主体文本在网页中间出现的HTML标记。JSP可用于创建于XML标记类似…

​(三)hadoop之hive的搭建1

下载 访问官方网站https://hive.apache.org/ 点击downloads 点击Download a release now! 点击https://dlcdn.apache.org/hive/ 选择最新的稳定版 复制最新的url 在linux执行下载命令 wget https://dlcdn.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz 2.解压…

SpringBoot全局异常捕获处理实现方案

在Spring Boot中实现全局异常处理可以通过以下方式: 使用ControllerAdvice注释创建一个全局异常处理类,并使用ExceptionHandler注释来定义具体异常的处理方法。 import your.package.IllegalNumberException; import org.springframework.http.HttpSta…

继续教育试题答案?学生党都在用的九款搜题工具来了 #其他#笔记#知识分享

今天分享拥有拍照搜题、文字搜题、语音搜题、多重搜题等搜题模式,可以快速查找问题解析,加深对题目答案的理解。 1.题老大 这是一个公众号 适合大学生找答案。包含了大学网课答案,期末复习资料,新视野英语,考研答案…

[office] excel如何计算毛重和皮重的时间间隔 excel计算毛重和皮重时间间隔方法 #笔记#学习方法

excel如何计算毛重和皮重的时间间隔 excel计算毛重和皮重时间间隔方法 在日常工作中经常会到用excel,有时需要计算毛重和皮重的时间间隔,具体的计算方式是什么,一起来了解一下吧 在日常工作中经常会到用excel,在整理编辑过磅数据…

「daily updating」k3s + openfaas serverless bench 踩坑指南持续更新中

OpenFaas从入门到实战 – 踩坑指南 | k3dOpenFaas | deploy your first python function https://blog.alexellis.io/first-faas-python-function/ https://docs.openfaas.com/deployment/kubernetes/ 搭建环境:第一种方法失败,第二种方法…

灰度发布浅见

在之前的稳定性生产文章中有一项对于研发人员比较重要的措施是变更管控,关于变更管控其实在实际生产活动中有很多措施,因为对于不太的行业,其行业特点和稳定性生产的要求也不一样,例如下图,我们可以看到信通院调研的不…

[职场] 大厂群面的基本题型 #学习方法#其他

大厂群面的基本题型 大厂群面的基本题型 群面,又叫做“无领导小组面试”。历年来是企业校招时,进行大批量刷人的有效方法。流行于互联网、快消、银行、四大等多个行业。因为难度大、情况复杂、淘汰率高,又被称为“死亡面试”。 无领导小组…

微信小程序(四十)API的封装与调用

注释很详细,直接上代码 上一篇 新增内容: 1.在单独的js文件中写js接口 2.以注册为全局wx的方式调用接口 源码: utils/testAPI.js const testAPI{/*** * param {*} title */simpleToast(title提示){//可传参,默认为‘提示’wx.sho…

CSS3 基本语法

CSS3 基本语法 1. CSS3 新增长度单位 rem 根元素字体大小的倍数,只与根元素字体大小有关。vw 视口宽度的百分之多少 10vw 就是视口宽度的 10% 。vh 视口高度的百分之多少 10vh 就是视口高度的 10% 。vmax 视口宽高中大的那个的百分之多少。(了解即可&am…

【复现】泛微云桥 e-Bridge SQL注入漏洞_44

目录 一.概述 二 .漏洞影响 三.漏洞复现 1. 漏洞一: 四.修复建议: 五. 搜索语法: 六.免责声明 一.概述 泛微云桥(e-Bridge)是上海泛微公司在”互联网”的背景下研发的一款用于桥接互联网开放资源与企业信息化系…
最新文章