迹忆客 专注技术分享

当前位置:主页 > 学无止境 > 编程语言 > Python >

在 Python 中将 PDF 转换为文本

作者:迹忆客 最近更新:2023/04/26 浏览次数:

Python 框架不仅仅用于构建应用程序。 我们可以使用 Python 将 PDF 文档转换为 .txt 文件。

当我们将 PDF 文件转换为文本时,页面内容变为可编辑,这是 PDF 文件不可能做到的。 我们可以使用不同的库将 PDF 转换为文本。 让我们尝试一些。


使用 PyPDF2 在 Python 中将 PDF 转换为文本

我们将使用的第一个方法是 PyPDF2 库。 我们将在终端内使用 pip install PyPDF2 安装它。

完成后,我们将创建一个新文件并将其命名为 new.py。 接下来,我们将导航到文件并输入这些代码。

代码片段- new.py:

import PyPDF2

pdfFileObj = open(r'C:\Users\HP\Desktop\BOOKS\Ching.pdf', 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

print(pdfReader.numPages)

pageObj = pdfReader.getPage(0)

print(pageObj.extractText())

pdfFileObj.close()

运行此代码后,请稍等片刻。 您应该在终端内看到纯文本,然后您可以将其复制并粘贴到 Word 文档或记事本中。

输出:

Converting PDF to Text Using PyPDF2


使用 Aspose 在 Python 中将 PDF 转换为文本

Aspose PDF 到 Python 的文本转换器提供了比 PyPDF2 更短的代码片段,但它同样高效。 此外,Aspose 将文本创建到 .txt 文件中,这与第一个在终端内生成文本内容的示例不同。

我们将从我们的终端安装 Aspose:pip install aspose-words。 安装后,创建一个新文件来存放代码,然后放入这些代码片段。

代码片段- new.py:

import aspose.words as aw

doc = aw.Document(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
doc.save(r"C:\Users\HP\Desktop\BOOKS\text\doc.txt")

导入 Aspose 后,我们声明要转换为文本的文件的路径。 然后,我们在 doc.save 中声明 .txt 文件的目标路径。

输出:

Converting PDF to Text Using Aspose


使用 PDFminer 在 Python 中将 PDF 转换为文本

最后,我们将使用 PDFminer 从 PDF 中提取文本。 我们将观察到 PDFminer 比 PyPDF 提取更多的文本并且需要更少的代码。

通过在终端中输入 pip install pdfminer.six 来安装 PDFminer。 安装后,创建一个新的 Python 文件,将其命名为 new.py 或您选择的任何名称,然后输入这些代码。

from pdfminer.high_level import extract_text

text = extract_text(r'C:\Users\HP\Desktop\BOOKS\Ching.pdf')
print(repr(text))

片刻之后,您将在终端中看到文本。 然后您可以将其从那里复制到文档中。


总结

我们大多数人通常都喜欢上网将 PDF 文件转换为文本,但发现我们可以用 Python 做到这一点,可以减轻我们上网的压力,也可以帮助我们应对网络上泄露敏感数据的风险。

转载请发邮件至 1244347461@qq.com 进行申请,经作者同意之后,转载请以链接形式注明出处

本文地址:

相关文章

Pandas read_csv()函数

发布时间:2024/04/24 浏览次数:254 分类:Python

Pandas read_csv()函数将指定的逗号分隔值(csv)文件读取到 DataFrame 中。

Pandas 追加数据到 CSV 中

发布时间:2024/04/24 浏览次数:352 分类:Python

本教程演示了如何在追加模式下使用 to_csv()向现有的 CSV 文件添加数据。

Pandas 多列合并

发布时间:2024/04/24 浏览次数:628 分类:Python

本教程介绍了如何在 Pandas 中使用 DataFrame.merge()方法合并两个 DataFrames。

Pandas loc vs iloc

发布时间:2024/04/24 浏览次数:837 分类:Python

本教程介绍了如何使用 Python 中的 loc 和 iloc 从 Pandas DataFrame 中过滤数据。

扫一扫阅读全部技术教程

社交账号
  • https://www.github.com/onmpw
  • qq:1244347461

最新推荐

教程更新

热门标签

扫码一下
查看教程更方便