在 Python 中将 PDF 转换为文本
Python 框架不仅仅用于构建应用程序。 我们可以使用 Python 将 PDF 文档转换为 .txt 文件。
当我们将 PDF 文件转换为文本时,页面内容变为可编辑,这是 PDF 文件不可能做到的。 我们可以使用不同的库将 PDF 转换为文本。 让我们尝试一些。
使用 PyPDF2 在 Python 中将 PDF 转换为文本
我们将使用的第一个方法是 PyPDF2 库。 我们将在终端内使用 pip install PyPDF2 安装它。
完成后,我们将创建一个新文件并将其命名为 new.py。 接下来,我们将导航到文件并输入这些代码。
代码片段- new.py:
import PyPDF2
pdfFileObj = open(r'C:\Users\HP\Desktop\BOOKS\Ching.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()
运行此代码后,请稍等片刻。 您应该在终端内看到纯文本,然后您可以将其复制并粘贴到 Word 文档或记事本中。
输出:
使用 Aspose 在 Python 中将 PDF 转换为文本
Aspose PDF 到 Python 的文本转换器提供了比 PyPDF2 更短的代码片段,但它同样高效。 此外,Aspose 将文本创建到 .txt 文件中,这与第一个在终端内生成文本内容的示例不同。
我们将从我们的终端安装 Aspose:pip install aspose-words。 安装后,创建一个新文件来存放代码,然后放入这些代码片段。
代码片段- new.py:
import aspose.words as aw
doc = aw.Document(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
doc.save(r"C:\Users\HP\Desktop\BOOKS\text\doc.txt")
导入 Aspose 后,我们声明要转换为文本的文件的路径。 然后,我们在 doc.save 中声明 .txt 文件的目标路径。
输出:
使用 PDFminer 在 Python 中将 PDF 转换为文本
最后,我们将使用 PDFminer 从 PDF 中提取文本。 我们将观察到 PDFminer 比 PyPDF 提取更多的文本并且需要更少的代码。
通过在终端中输入 pip install pdfminer.six
来安装 PDFminer。 安装后,创建一个新的 Python 文件,将其命名为 new.py 或您选择的任何名称,然后输入这些代码。
from pdfminer.high_level import extract_text
text = extract_text(r'C:\Users\HP\Desktop\BOOKS\Ching.pdf')
print(repr(text))
片刻之后,您将在终端中看到文本。 然后您可以将其从那里复制到文档中。
总结
我们大多数人通常都喜欢上网将 PDF 文件转换为文本,但发现我们可以用 Python 做到这一点,可以减轻我们上网的压力,也可以帮助我们应对网络上泄露敏感数据的风险。
相关文章
Django 中的 Slug
发布时间:2023/05/04 浏览次数:173 分类:Python
-
本篇文章旨在定义一个 slug 以及我们如何使用 slug 字段在 Python 中使用 Django 获得独特的帖子。
在 Django 中按降序过滤查询集中的项目
发布时间:2023/05/04 浏览次数:157 分类:Python
-
在这个讲解中,学习如何借助 Django 中的 order_by() 方法按降序过滤出查询集中的项目。
Django ALLOWED_HOSTS 介绍
发布时间:2023/05/04 浏览次数:181 分类:Python
-
本文展示了如何创建您的 Django 网站,为公开发布做好准备,如何设置 ALLOWED_HOSTS 以及如何在使用 Django 进行 Web 部署期间修复预期的主要问题。
Django 中的 Select_related 方法
发布时间:2023/05/04 浏览次数:129 分类:Python
-
本文介绍了什么是查询集,如何处理这些查询以及我们如何利用 select_related() 方法来过滤 Django 中相关模型的查询。
使用 Post 请求将数据发送到 Django 服务器
发布时间:2023/05/04 浏览次数:159 分类:Python
-
在这篇关于Django的讲解中,我们简要介绍了post和get请求以及如何在Django中用post实现CSRF token。
Django 返回 JSON
发布时间:2023/05/04 浏览次数:106 分类:Python
-
在与我们的讨论中,我们简要介绍了 JSON 格式,并讨论了如何借助 Django 中的 JsonResponse 类将数据返回为 JSON 格式。
在 Django 中创建对象
发布时间:2023/05/04 浏览次数:59 分类:Python
-
本文的目的是解释什么是模型以及如何使用 create() 方法创建对象,并了解如何在 Django 中使用 save() 方法。
在 Django 中为多项选择创建字段
发布时间:2023/05/04 浏览次数:75 分类:Python
-
在本文中,我们将着眼于为多项选择创建一个字段,并向您展示如何允许用户在 Django 中进行多项选择。