通过Python将PDF转为文本,快速提取PDF中的文字

快速高效地从PDF文档中提取信息对于专业人士来说非常重要。处理大量PDF文件时,将PDF转换为可编辑的文本格式可以节省时间和精力。而强大的Python语言正是在这些方面发挥其作用。利用Python中丰富的API,我们可以轻松在Python程序中将PDF转换为文本(txt文件),实现PDF文字的轻松提取。

本文将展示如何使用Python进行PDF到文本的转换,发挥Python在PDF文件处理中的作用。本文包括以下主题:

文章目录

    • 使用Python转换PDF为文本的步骤
    • Python将PDF转换为文本但不保留布局
    • Python将PDF转换为文本并保留布局
    • Python将指定的PDF页面区域转换为文本
      • 总结

本文所使用的转换方法需要用到Spire.Doc for Python,可从官网下载或通过PyPI安装:pip install Spire.Doc

使用Python转换PDF为文本的步骤

在我们开始使用Python将PDF转换为文本之前,让我们先了解一下转换可以为我们提供的主要优势:

  • 可编辑:将PDF转换为文本使文档操作者能够更轻松地编辑文档,文本文件可以在大多数设备上打开和编辑。
  • 可访问性:与PDF相比,文本文件通常更易于访问。无论是电脑还是移动设备,都可以轻松地查看文本文件。
  • 与其他应用程序的集成及数据共享:文本文件可以无缝地集成到各种应用程序和工作流程中,实现数据在程序之间的共享。

使用Python将PDF文档转换为文本文件的步骤:

  1. 导入模块。
  2. 创建PdfDocument类的对象,并使用 LoadFromFile() 方法加载PDF文件。
  3. 创建PdfTextExtractOptions类的对象,并设置文本提取选项,包括提取所有文本、显示隐藏文本、仅提取指定区域的文本以及简单提取。
  4. 使用 PdfDocument.Pages.get_Item() 方法获取文档中的页面,并基于每个页面创建 PdfTextExtractor 对象,使用 Extract() 方法提取页面上的文本,并指定选项。
  5. 将提取的文本保存为文本文件,并关闭 PdfDocument 对象。

Python将PDF转换为文本但不保留布局

当使用简单提取方法从PDF中提取文本时,程序将不保留空白区域,并跟踪每个字符串的当前Y位置,如果Y位置发生变化,就在输出结果中插入换行符。

from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor# 创建PdfDocument类的对象并加载PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("示例.pdf")# 创建一个字符串对象来存储文本
extracted_text = ""# 创建PdfExtractor对象
extract_options = PdfTextExtractOptions()
# 设置使用简单提取方法
extract_options.IsSimpleExtraction = True# 循环遍历文档中的页面
for i in range(pdf.Pages.Count):# 获取页面page = pdf.Pages.get_Item(i)# 创建PdfTextExtractor对象,并将页面作为参数传递text_extractor = PdfTextExtractor(page)# 从页面中提取文本text = text_extractor.ExtractText(extract_options)# 将提取的文本添加到字符串对象中extracted_text += text# 将提取的文本写入文本文件
with open("output/PDF转文本.txt", "w") as file:file.write(extracted_text)
pdf.Close()

原文档
PDF转文本

输出的文本文件*
PDF转TXT

Python将PDF转换为文本并保留布局

当使用默认提取方法从PDF中提取文本时,程序将逐行提取文本,包括空白。

from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor# 创建PdfDocument类的对象并加载PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("示例.pdf")# 创建一个字符串对象来存储文本
extracted_text = ""# 创建PdfExtractor对象
extract_options = PdfTextExtractOptions()# 循环遍历文档中的页面
for i in range(pdf.Pages.Count):# 获取页面page = pdf.Pages.get_Item(i)# 创建PdfTextExtractor对象,并将页面作为参数传递text_extractor = PdfTextExtractor(page)# 从页面中提取文本text = text_extractor.ExtractText(extract_options)# 将提取的文本添加到字符串对象中extracted_text += text# 将提取的文本写入文本文件
with open("output/提取的文本(保留排版).txt", "w") as file:file.write(extracted_text)
pdf.Close()

输出的文本文件
PDF转文本保留布局

Python将指定的PDF页面区域转换为文本

from spire.pdf import PdfDocument
from spire.pdf import PdfTextExtractOptions
from spire.pdf import PdfTextExtractor
from spire.pdf import RectangleF# 创建PdfDocument类的对象并加载PDF文件
pdf = PdfDocument()
pdf.LoadFromFile("示例.pdf")# 创建PdfExtractor对象
extract_options = PdfTextExtractOptions()# 设置提取特定页面区域
extract_options.ExtractArea = RectangleF(50.0, 220.0, 700.0, 230.0)# 获取页面
page = pdf.Pages.get_Item(0)# 创建PdfTextExtractor对象,并将页面作为参数传递
text_extractor = PdfTextExtractor(page)# 从页面中提取文本
extracted_text = text_extractor.ExtractText(extract_options)# 将提取的文本写入文本文件
with open("output/PDF页面区域转文本.txt", "w") as file:file.write(extracted_text)
pdf.Close()

输出的文本文件
提取PDF页面区域文字

总结

在本文中,我们探讨了Python在PDF转文本中的应用。参照文中的操作步骤及代码示例,我们可以在Python程序中实现快速的PDF到文本的转换。如果在使用Spire.PDF for Python的过程中遇到任何问题,可以通过Spire产品论坛获取技术支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2659222.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

通过Vue自定义指令实现前端埋点

在营销活动中,通过埋点可以获取用户的喜好及交互习惯,从而优化流程,进一步提升用户体验,提高转化率。 在之前的埋点方案实现中,都是在具体的按钮或者图片被点击或者被曝光时主动通过事件去上报埋点。这种方法在项目中…

2022年全国职业院校技能大赛高职组云计算正式赛卷第三场-公有云

2022 年全国职业院校技能大赛高职组云计算赛项试卷 【赛程名称】云计算赛项第三场-公有云 目录 2022 年全国职业院校技能大赛高职组云计算赛项试卷 【赛程名称】云计算赛项第三场-公有云 【任务 1】公有云服务搭建[10 分] 【任务 2】公有云服务运维[10 分] 【任务 3】公有云运维…

[SWPUCTF 2021 新生赛]finalrce

[SWPUCTF 2021 新生赛]finalrce wp 注&#xff1a;本文参考了 NSSCTF Leaderchen 师傅的题解&#xff0c;并修补了其中些许不足。 此外&#xff0c;参考了 命令执行(RCE)面对各种过滤&#xff0c;骚姿势绕过总结 题目代码&#xff1a; <?php highlight_file(__FILE__); …

微软发布安卓版Copilot,可免费使用GPT-4、DALL-E 3

12月27日&#xff0c;微软的Copilot助手&#xff0c;可在谷歌应用商店下载。目前&#xff0c;只有安卓版&#xff0c;ios还无法使用。 Copilot是一款类ChatGPT助手支持中文&#xff0c;可生成文本/代码/图片、分析图片、总结内容等&#xff0c;二者的功能几乎没太大差别。 值…

k8s集群etcd备份与恢复

一、前言 k8s集群使用etcd集群存储数据&#xff0c;如果etcd集群崩溃了&#xff0c;k8s集群的数据就会全部丢失&#xff0c;所以需要日常进行etcd集群数据的备份&#xff0c;预防etcd集群崩溃后可以使用数据备份进行恢复&#xff0c;也可用于重建k8s集群进行数据恢复 二、备份…

sheng的学习笔记-卷积神经网络

源自吴恩达的深度学习课程&#xff0c;仅用于笔记&#xff0c;便于自行复习 导论 1&#xff09;什么是卷积神经网络 卷积神经网络&#xff0c;也就是convolutional neural networks &#xff08;简称CNN&#xff09;&#xff0c;使用卷积算法的神经网络&#xff0c;常用于计…

Pymol入门---安装Windows 多版本下载

Pymol的安装 Pymol需要Anaconda与pymol.....whl文件&#xff0c;Anaconda最好去下载清华提供的镜像&#xff0c;网速会很快 Anaconda 下载地址&#xff1a;点击打开链接 pymol 下载地址&#xff1a;点击打开链接 https://www.lfd.uci.edu/~gohlke/pythonlibs/ 1.1 获取…

【每日一题】【12.24】 - 【12.28】

&#x1f525;博客主页&#xff1a; A_SHOWY&#x1f3a5;系列专栏&#xff1a;力扣刷题总结录 数据结构 云计算 数字图像处理 力扣每日一题_ 本周总结&#xff1a;本周的每日一题比较针对于数学问题的一个应用&#xff0c;如二元一次方程组的求解或者数组求和&#xff0c;同…

SSL证书到期怎么办?续签教程一览

在网络安全中&#xff0c;SSL证书是确保数据传输安全的关键。然而&#xff0c;一旦SSL证书到期&#xff0c;就会导致网站的安全性受到威胁。为了保持网站的正常运行并维护用户信任&#xff0c;及时续签SSL证书是至关重要的。以下是一个简要的SSL证书到期后如何进行续签的教程&a…

浏览器Post请求出现413 Request Entity Too Large (Nginx)

环境 操作系统 window server 2016 前端项目 Vue2 Nginx-1.25.3 一、错误信息 前端是vue项目&#xff0c;打包后部署在Nginx上&#xff0c;前端post请求出现Request Entity Too Large错误信息。 ​这种问题一般是请求实体太大&#xff08;包含参数&#xff0c;文件等&#xf…

vs c++mysql 配置

C/C访问MySQL数据库_c链接数据库陈子青-CSDN博客文章浏览阅读2.7k次&#xff0c;点赞14次&#xff0c;收藏65次。C/C访问MySQL数据库VS2019配置第一步&#xff1a;打开mysql的安装目录&#xff0c;默认安装目录如下&#xff1a;C:\Program Files\MySQL\MySQL Server 8.0&#x…

Flink项目实战篇 基于Flink的城市交通监控平台(下)

系列文章目录 Flink项目实战篇 基于Flink的城市交通监控平台&#xff08;上&#xff09; Flink项目实战篇 基于Flink的城市交通监控平台&#xff08;下&#xff09; 文章目录 系列文章目录4. 智能实时报警4.1 实时套牌分析4.2 实时危险驾驶分析4.3 出警分析4.4 违法车辆轨迹跟…

搜维尔科技:经脉腧穴虚拟针灸VR虚拟教学平台AcuMap软件案例分享

北京中医药大学经脉腧穴VR虚拟教学平台案例 主要产品 HTCvive &#xff0c;AcuMap&#xff1b; 实施内容 一、项目说明 &#xff08;1&#xff09;穴位取穴与体表解剖标志关系&#xff1b;&#xff08;2&#xff09;穴下层次解剖及周围解剖结构展示&#xff1b; &#xf…

Tuxera NTFS for Mac2024免费Mac读写软件下载教程

在日常生活中&#xff0c;我们使用Mac时经常会遇到外部设备不能正常使用的情况&#xff0c;如&#xff1a;U盘、硬盘、软盘等等一系列存储设备&#xff0c;而这些设备的格式大多为NTFS&#xff0c;Mac系统对NTFS格式分区存在一定的兼容性问题&#xff0c;不能正常读写。 那么什…

第十章:构建安全的SSH 服务体系

A_实验案例:构建安全的SSH 服务体系 实验环境 某公司的电子商务站点由专门的网站管理员进行配置和维护&#xff0e;并需要随时从Internet进行远程管理。考虑到易用性和灵活性&#xff0c;在 Web服务器上启用OpenSSH 服务&#xff0c;同时基于安全性考虑&#xff0c;需要对SSH…

Java中XML的解析

1.采用第三方开元工具dom4j完成 使用步骤 1.导包dom4j的jar包 2.add as lib.... 3.创建核心对象, 读取xml得到Document对象 SAXReader sr new SAXReader(); Document doc sr.read(String path); 4.根据Document获取根元素对象 Element root doc.getRootElement(); …

SpringBoot2.7 组件注册、属性绑定

SpringBoot2.7 组件注册 一.组件注册1.Configuration解释案例测试 2.SpringBootConfiguration解释 3. Bean解释 4. Scope解释案例 5.Component解释 6.Import解释作用 7.Controller、Service、Repository、Component解释 二.属性绑定1.ConfigurationProperties作用区别常用情况案…

Cucumber-JVM的示例和运行解析

Cucumber-JVM 是一个支持 Behavior-Driven Development (BDD) 的 Java 框架。在 BDD 中&#xff0c;可以编写可读的描述来表达软件功能的行为&#xff0c;而这些描述也可以作为自动化测试。 Cucumber-JVM 的最小化环境 Cucumber-JVM是BDD的框架&#xff0c; 提供了GWT语法的相…

项目接口性能优化方案

&#x1f9d1;‍&#x1f4bb;作者名称&#xff1a;DaenCode &#x1f3a4;作者简介&#xff1a;CSDN实力新星&#xff0c;后端开发两年经验&#xff0c;曾担任甲方技术代表。会点点Java相关技术栈、帆软报表、低代码平台快速开发。技术尚浅&#xff0c;闭关学习中 &#x1f60…

Qt 中使用 MySQL 数据库保姆级教程(下)

作者&#xff1a;billy 版权声明&#xff1a;著作权归作者所有&#xff0c;商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处 前言 上篇中我们安装好了 MySQL 数据库和 Navicat 软件&#xff0c;下面在 Qt 中尝试使用数据库 1. 在 Qt 中连接 MySQL 数据库&#…