深入探索pdfplumber:从PDF中提取信息到实际项目应用【第94篇—pdfplumbe】

深入探索pdfplumber:从PDF中提取信息到实际项目应用

在数据处理和信息提取的过程中,PDF文档是一种常见的格式。然而,要从PDF中提取信息并进行进一步的分析,我们需要使用适当的工具。本文将介绍如何使用Python库中的pdfplumber库来读取PDF文档,并通过实际代码示例演示如何将提取的信息写入Excel文件。

image-20240223150450981

1. pdfplumber简介

pdfplumber是一个用于处理PDF文件的Python库,它基于PDFMiner、pyPDF2和其他库构建而成。它提供了简单而强大的接口,使得从PDF文档中提取文本、表格和其他元素变得更加容易。

2. 安装pdfplumber

首先,确保你已经安装了Python。然后使用以下命令安装pdfplumber:

pip install pdfplumber

3. 使用pdfplumber读取PDF文档

让我们通过以下步骤演示如何使用pdfplumber读取PDF文档。

import pdfplumber# 读取PDF文档
with pdfplumber.open('example.pdf') as pdf:# 获取文档的总页数total_pages = len(pdf.pages)# 遍历每一页for page_number in range(total_pages):# 获取当前页page = pdf.pages[page_number]# 提取文本内容text = page.extract_text()# 打印文本内容print(f"Page {page_number + 1}:\n{text}")

以上代码演示了如何打开PDF文档,获取总页数,并遍历每一页提取文本内容。接下来,我们将演示如何提取表格数据,并将其写入Excel文件。

4. 将提取的表格数据写入Excel

import pdfplumber
import pandas as pd# 读取PDF文档
with pdfplumber.open('example.pdf') as pdf:# 获取文档的总页数total_pages = len(pdf.pages)# 创建一个空的DataFrame来存储表格数据df = pd.DataFrame()# 遍历每一页for page_number in range(total_pages):# 获取当前页page = pdf.pages[page_number]# 提取表格数据table = page.extract_table()# 将表格数据转换为DataFramedf_page = pd.DataFrame(table)# 将当前页的数据添加到整体DataFrame中df = df.append(df_page, ignore_index=True)# 将DataFrame写入Excel文件df.to_excel('output.xlsx', index=False)

以上代码演示了如何使用pdfplumber提取PDF文档中的表格数据,并将其存储到一个Pandas DataFrame中。最后,将DataFrame写入Excel文件。这样,你就可以轻松地将PDF中的表格数据转移到Excel进行进一步分析。

6. 代码解析

让我们深入了解上述代码的关键部分:

  • 导入pdfplumber和pandas库:

    import pdfplumber
    import pandas as pd
    

    在代码的开头,我们导入了pdfplumber和pandas库。pdfplumber用于处理PDF文件,而pandas用于处理表格数据。

  • 打开PDF文档并遍历每一页:

    with pdfplumber.open('example.pdf') as pdf:total_pages = len(pdf.pages)df = pd.DataFrame()for page_number in range(total_pages):page = pdf.pages[page_number]# ...
    

    使用pdfplumber.open打开PDF文档,并通过pdf.pages获取文档中的所有页。然后,我们创建一个空的DataFrame df 用于存储表格数据,并使用for循环遍历每一页。

  • 提取表格数据和将其转换为DataFrame:

    table = page.extract_table()
    df_page = pd.DataFrame(table)
    

    使用page.extract_table()方法从当前页提取表格数据,并将其转换为Pandas DataFrame。

  • 将当前页的数据添加到整体DataFrame中:

    df = df.append(df_page, ignore_index=True)
    

    使用df.append方法将当前页的数据添加到整体DataFrame中。ignore_index=True确保每页的数据都具有唯一的索引。

  • 将DataFrame写入Excel文件:

    df.to_excel('output.xlsx', index=False)
    

    使用df.to_excel方法将整体DataFrame写入Excel文件,index=False表示不将DataFrame的索引写入Excel文件中。

8. 进阶应用与注意事项

8.1 进阶应用
  • 处理复杂表格结构: 对于包含合并单元格、嵌套表格等复杂结构的PDF表格,pdfplumber提供了一些高级的方法和属性,如cellsmerge_strategy等,使我们能够更灵活地处理这些情况。

  • 提取非文本元素: pdfplumber不仅可以提取文本数据,还可以获取图片、矩形、线条等元素。这为处理包含图像或其他非文本内容的PDF提供了可能性。

8.2 注意事项
  • PDF文档质量: pdfplumber的性能受到PDF文档质量的影响。在处理低质量或扫描的文档时,提取数据可能会变得更加复杂,需要更多的处理和清理。

  • 编码和字体: 在处理PDF文档时,特别是处理非英语文本时,可能会遇到编码和字体的问题。确保系统中安装了适当的字体,并根据需要设置文本编码。

  • 文档结构变化: pdfplumber依赖于PDF的结构,如果文档的结构发生变化,可能需要调整代码以适应新的结构。

10. 拓展阅读与学习资源

为了帮助读者更深入地学习和应用pdfplumber以及相关技术,以下是一些拓展阅读和学习资源:

  • PDFMiner官方文档: pdfplumber基于PDFMiner,因此熟悉PDFMiner库的使用也是有益的。PDFMiner的官方文档提供了对PDF文档的更底层访问,适合需要更高度自定义的场景。
  • Python编程学习: 如果你是Python新手,建议深入学习Python编程语言的基础知识。你可以通过在线教程、课程或经典教材来提高你的Python编程技能。

11. 探索其他PDF处理工具

pdfplumber是众多用于处理PDF的Python库之一。根据不同需求,你可能还会对其他库感兴趣,如PyMuPDF、PyPDF2等。了解多个库的优缺点,选择适合你项目需求的工具。

12. 参与社区与反馈

如果在使用pdfplumber的过程中遇到问题或有建议,可以通过GitHub等社区渠道提出。积极参与社区讨论,与其他开发者分享经验,共同促进工具的不断改进。

希望通过这些建议和资源,你能够更加深入地学习和应用PDF文档处理技术,提升你的数据分析和信息提取能力。祝你在技术学习的道路上取得更多成就!

13. 实践项目:从PDF中提取特定信息

为了更好地巩固对pdfplumber的理解,让我们尝试一个实践项目:从一份包含多个人员信息的PDF文件中提取姓名、邮箱地址和电话号码,并将其存储到一个结构化的数据格式中。

import pdfplumber
import redef extract_information_from_pdf(pdf_path):with pdfplumber.open(pdf_path) as pdf:total_pages = len(pdf.pages)# 创建一个空的列表用于存储信息extracted_data = []for page_number in range(total_pages):page = pdf.pages[page_number]# 提取文本内容text = page.extract_text()# 使用正则表达式提取姓名、邮箱地址和电话号码name_match = re.search(r'姓名: (.+)', text)email_match = re.search(r'邮箱: (.+)', text)phone_match = re.search(r'电话: (.+)', text)if name_match and email_match and phone_match:name = name_match.group(1)email = email_match.group(1)phone = phone_match.group(1)# 将提取的信息添加到列表中extracted_data.append({'姓名': name, '邮箱': email, '电话': phone})return extracted_data# 指定PDF文件路径
pdf_file_path = 'person_info.pdf'# 提取信息并打印
result = extract_information_from_pdf(pdf_file_path)
for entry in result:print(entry)

在这个示例中,我们使用正则表达式从每一页的文本中提取姓名、邮箱地址和电话号码。请注意,实际的PDF文档结构可能因具体情况而异,你可能需要根据文档的实际结构进行适当的调整。

14. 进一步学习

  • 深入学习正则表达式: 正则表达式在文本提取中非常有用。深入学习正则表达式的语法和应用可以帮助你更高效地处理各种文本模式。

  • 数据清洗与预处理: 在实际项目中,你可能需要进行更复杂的数据清洗和预处理。学习Pandas和其他数据处理工具,掌握数据清洗技巧将对你的工作大有裨益。

  • Web Scraping: 如果你的信息源不仅限于PDF文档,还包括Web页面,学习Web Scraping技术将进一步拓展你的信息获取能力。

15. 反馈与交流

如果在实践项目中遇到了问题或有任何疑问,欢迎在相关社区、论坛或平台上提出。与其他开发者分享你的经验,获取反馈,这对于你的学习和成长都是非常有益的。祝你在实际项目中取得成功!

16. 最佳实践:代码优化和异常处理

在实际项目中,为了保证代码的可维护性和稳定性,我们通常需要考虑一些最佳实践,包括代码优化和异常处理。

16.1 代码优化
  • 使用函数和模块: 将代码组织为函数和模块,以提高可读性和可维护性。将上述提取信息的代码封装成一个函数,便于复用和管理。
import pdfplumber
import redef extract_information_from_text(text):name_match = re.search(r'姓名: (.+)', text)email_match = re.search(r'邮箱: (.+)', text)phone_match = re.search(r'电话: (.+)', text)if name_match and email_match and phone_match:name = name_match.group(1)email = email_match.group(1)phone = phone_match.group(1)return {'姓名': name, '邮箱': email, '电话': phone}else:return Nonedef extract_information_from_pdf(pdf_path):with pdfplumber.open(pdf_path) as pdf:total_pages = len(pdf.pages)extracted_data = []for page_number in range(total_pages):page = pdf.pages[page_number]text = page.extract_text()result = extract_information_from_text(text)if result:extracted_data.append(result)return extracted_data
16.2 异常处理
  • 处理异常情况: 在现实项目中,PDF文档的结构可能因来源和版本而异,因此我们需要在代码中添加适当的异常处理来处理不同情况。
def extract_information_from_pdf(pdf_path):with pdfplumber.open(pdf_path) as pdf:total_pages = len(pdf.pages)extracted_data = []for page_number in range(total_pages):try:page = pdf.pages[page_number]text = page.extract_text()result = extract_information_from_text(text)if result:extracted_data.append(result)except Exception as e:print(f"Error processing page {page_number + 1}: {str(e)}")return extracted_data

通过添加异常处理,我们能够捕获并打印错误信息,同时继续处理其他页面,确保程序的鲁棒性。

17. 持续学习和实践

在编程和数据处理的领域中,持续学习和实践是非常关键的。不断挑战新的项目,学习新的技术和工具,参与开发者社区的讨论和贡献,将有助于提升你的技能水平。

  • 参与开源项目: 在GitHub等平台上,有许多与PDF处理相关的开源项目,可以参与其中,学习他人的代码风格和最佳实践。

  • 阅读相关文档和博客: 随着技术的不断更新,阅读相关文档和博客是了解最新技术动态和最佳实践的好方法。

  • 参与在线学习平台: 利用在线学习平台(如Coursera、edX、Udacity等),参加相关的课程和培训,提升自己的专业水平。

通过不断的学习和实践,你将能够更加熟练地处理各种数据处理任务,从而在实际项目中表现出色。祝你在编程和数据处理的旅程中取得更多成功!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2803135.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

DataX - 全量数据同步工具

前言 今天是2024-2-21,农历正月十二,相信今天开始是新的阶段,尽管它不是新的周一、某月一日、某年第一天,尽管我是一个很讲究仪式感的人。新年刚过去 12 天,再过 3 天就开学咯,开学之后我的大学时光就进入了…

STM32控制max30102读取血氧心率数据(keil5工程)

一、前言 MAX30102是一款由Maxim Integrated推出的低功耗、高精度的心率和血氧饱和度检测传感器模块,适用于可穿戴设备如智能手环、智能手表等健康管理类电子产品。 该传感器主要特性如下: (1)光学测量:MAX30102内置…

2024生物发酵展带您领略视觉盛宴-东滤器材

参展企业介绍 东滤器材(石家庄)有限公司是一家专注于微孔膜产品、深层过滤产品、纳米纤维产品、一次性过滤产品开发和应用的高科技企业,并于2022年顺利通过河北省“高新技术企业”权威认证。 公司拥有近两千平米符合GMP规范的十万级净化车间…

springmvc基于springboot 的音乐播放系统 _7sdu8

这就意味着音乐播放系统的设计可以比其他系统更为出色的能力,可以更高效的完成最新的ymj排行榜、ymj音乐资讯等功能。 此系统设计主要采用的是JAVA语言来进行开发,JSP技术、采用SSM框架技术,框架分为三层,分别是控制层Controller&…

NXP实战笔记(七):S32K3xx基于RTD-SDK在S32DS上配置ICU输入捕获

目录 1、概述 2、输入捕获SDK配置 2.1、SAIC中断方式 2.2、IPWM或者IPM 1、概述 输入捕获,可以抓取高电平时间、低电平时间、占空比、周期、边沿检测与回调函数、边沿计数(ABZ解码)、时间戳、唤醒中断。 记录一下根据Emios模块实现上述部分…

AGI|AI到底如何生成视频?Sora究竟为何能引爆科技圈?

目录 一、AI生成视频引发新浪潮 二、生成方法及难点 三、Sora的突破进展 (一)可生成不同尺寸视频 (二)可生成1分钟时长视频 (三)图片生成视频 (四)场景一致性 (五…

【C++私房菜】面向对象中的简单继承

文章目录 一、 继承基本概念二、派生类对象及派生类向基类的类型转换三、继承中的公有、私有和受保护的访问控制规则四、派生类的作用域五、继承中的静态成员 一、 继承基本概念 通过继承(inheritance)联系在一起的类构成一种层次关系。通常在层次关系的…

Jenkins2.426.3运行时提示:mvn: command not found

Jenkins运行时提示:mvn: command not found 第一步,查看服务器上是否已正确安装maven环境 $mvn --version 如果没有显示上面的信息,则需要重新安装maven环境后再往下进行 第二步:Jenkins配置Maven 例如:/usr/local/…

六、回归与聚类算法 - 欠拟合和过拟合

目录 1、定义 2、原因及解决方法 2.1 正则化 线性回归欠拟合与过拟合线性回归的改进 - 岭回归分类算法:逻辑回归模型保存与加载无监督学习:K-means算法 1、定义 2、原因及解决方法 2.1 正则化

洛谷B2008/2009 题解

#题外话(第35篇题解)(太简单,分两个于心不忍……)(C语言) #先看题目 2008: 2009: 题目链接: 2008https://www.luogu.com.cn/problem/B20082009https://www…

海思SD3403,SS928/926,hi3519dv500,hi3516dv500移植yolov7,yolov8(14)

自己挖了一个坑,准备做SS928/SD3403的Yolov8的移植,主要是后台私信太多人在问相关的问题。先别着急去写代码,因为在hi3516dv500下的移植还是比较顺利。之前在hi3519av100和hi3559av100系列时遇到过一些问题,所以没有继续去移植新的算法。 SS928架构乍一看和hi3559av100特别…

多来客资讯:本地生活服务平台加盟方法

本地生活一般涵盖了吃喝玩乐,而本地生活平台,则是指提供这些吃喝玩乐的互联网平台以及各大APP,比如饿了么、美团等等,这些都可以叫做本地生活服务平台。 因为这些平台都是主要做外卖、团购业务为主,所以,本…

Oracle迁移到mysql-导出mysql所有索引和主键

导出建库表索引等: [rootlnpg ~]# mysqldump -ugistar -pxxx -h192.168.207.143 --no-data -d lndb > lndb20230223-1.sql 只导出索引:参考:MYSQL导出现有库中的索引脚本_mysql 导出数据库所有表的主键和索引-CSDN博客 -- MYSQL导出现有…

项目:文本编辑器

文章目录 [toc] 文本编辑器1.项目概述1.1功能介绍1.2界面实现预览1.3界面设计简要介绍 2.设计流程2.1窗口图片,和标题更改2.1.1gui方式改变2.1.2代码方式更改2.2 QPushButton按钮设置样式表 2.2 功能实现2.2.1 打开读取文件2.2.2 打开保存文件2.2.3 文件关闭2.2.4 更…

Web 前端 UI 框架Bootstrap简介与基本使用

Bootstrap 是一个流行的前端 UI 框架,用于快速开发响应式和移动设备优先的网页。它由 Twitter 的设计师和工程师开发,现在由一群志愿者维护。Bootstrap 提供了一套丰富的 HTML、CSS 和 JavaScript 组件,可以帮助开发者轻松地构建和定制网页和…

【selenium】三大切换 iframe 弹窗alert 句柄window 和 鼠标操作

目录 一、iframe 1、切换方式: 1、第一种情况: 2、第二种情况: 方式1: 先找到iframe,定位iframe元素(可以通过元素定位的各种方式:xpath,css等等),用对象接收&…

Sora模型开启了AI视频模型的新篇章,将引领未来更多领域的创新和应用。

目录 一、Sora模型的工作原理 二、AI视频模型的无限可能性 1.视频编辑和创作 2.游戏和虚拟现实 3.教育和远程协作 4.娱乐和社交媒体 OpenAI最近推出了其首个AI视频模型Sora,这个模型能够生成逼真的视频,具有许多潜在的应用领域。本文将探讨Sora模型…

旅游景点旅行研学门票特产小程序开发

旅游景点旅行研学门票特产小程序开发 旅游线路智能推荐与精心规划,我们为用户提供丰富多样的旅游线路选择,助力您的行程安排更加顺畅无忧。 景点门票在线预订与购买功能,覆盖景区、博物馆、演出等各类门票。告别排队等待,一键操…

揭秘抖音自动评论软件的使用方法和步骤

**一、引言** 随着移动互联网的普及,抖音已经成为了人们日常生活中不可或缺的一部分。为了更好地利用抖音,我们今天就来探讨一下抖音自动评论软件的使用方法和步骤。本文将通过通俗易懂的语言,结合实际操作,帮助大家轻松掌握这一…

(十四)【Jmeter】线程(Threads(Users))之开放模型线程组(Open Model Thread Group)

简述 操作路径如下: 开放模型线程组(Open Model Thread Group) 是 JMeter 5.5 版本中引入的一个新特性,它允许用户创建具有可变负载的负载配置文件。相较于传统的线程组,开放模型线程组提供了更多的灵活性和动态调整的能力。 优点: 灵活性:允许测试人员根据测试需求动…