在 Python 中将 PDF 转换为文本
Python 框架不仅仅用于构建应用程序。 我们可以使用 Python 将 PDF 文档转换为 .txt 文件。
当我们将 PDF 文件转换为文本时,页面内容变为可编辑,这是 PDF 文件不可能做到的。 我们可以使用不同的库将 PDF 转换为文本。 让我们尝试一些。
使用 PyPDF2 在 Python 中将 PDF 转换为文本
我们将使用的第一个方法是 PyPDF2 库。 我们将在终端内使用 pip install PyPDF2 安装它。
完成后,我们将创建一个新文件并将其命名为 new.py。 接下来,我们将导航到文件并输入这些代码。
代码片段- new.py:
import PyPDF2
pdfFileObj = open(r'C:\Users\HP\Desktop\BOOKS\Ching.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()
运行此代码后,请稍等片刻。 您应该在终端内看到纯文本,然后您可以将其复制并粘贴到 Word 文档或记事本中。
输出:
使用 Aspose 在 Python 中将 PDF 转换为文本
Aspose PDF 到 Python 的文本转换器提供了比 PyPDF2 更短的代码片段,但它同样高效。 此外,Aspose 将文本创建到 .txt 文件中,这与第一个在终端内生成文本内容的示例不同。
我们将从我们的终端安装 Aspose:pip install aspose-words。 安装后,创建一个新文件来存放代码,然后放入这些代码片段。
代码片段- new.py:
import aspose.words as aw
doc = aw.Document(r"C:\Users\HP\Desktop\BOOKS\Ching.pdf")
doc.save(r"C:\Users\HP\Desktop\BOOKS\text\doc.txt")
导入 Aspose 后,我们声明要转换为文本的文件的路径。 然后,我们在 doc.save 中声明 .txt 文件的目标路径。
输出:
使用 PDFminer 在 Python 中将 PDF 转换为文本
最后,我们将使用 PDFminer 从 PDF 中提取文本。 我们将观察到 PDFminer 比 PyPDF 提取更多的文本并且需要更少的代码。
通过在终端中输入 pip install pdfminer.six
来安装 PDFminer。 安装后,创建一个新的 Python 文件,将其命名为 new.py 或您选择的任何名称,然后输入这些代码。
from pdfminer.high_level import extract_text
text = extract_text(r'C:\Users\HP\Desktop\BOOKS\Ching.pdf')
print(repr(text))
片刻之后,您将在终端中看到文本。 然后您可以将其从那里复制到文档中。
总结
我们大多数人通常都喜欢上网将 PDF 文件转换为文本,但发现我们可以用 Python 做到这一点,可以减轻我们上网的压力,也可以帮助我们应对网络上泄露敏感数据的风险。
相关文章
Pandas DataFrame DataFrame.shift() 函数
发布时间:2024/04/24 浏览次数:133 分类:Python
-
DataFrame.shift() 函数是将 DataFrame 的索引按指定的周期数进行移位。
Python pandas.pivot_table() 函数
发布时间:2024/04/24 浏览次数:82 分类:Python
-
Python Pandas pivot_table()函数通过对数据进行汇总,避免了数据的重复。
Pandas read_csv()函数
发布时间:2024/04/24 浏览次数:254 分类:Python
-
Pandas read_csv()函数将指定的逗号分隔值(csv)文件读取到 DataFrame 中。
Pandas 多列合并
发布时间:2024/04/24 浏览次数:628 分类:Python
-
本教程介绍了如何在 Pandas 中使用 DataFrame.merge()方法合并两个 DataFrames。
Pandas loc vs iloc
发布时间:2024/04/24 浏览次数:837 分类:Python
-
本教程介绍了如何使用 Python 中的 loc 和 iloc 从 Pandas DataFrame 中过滤数据。
在 Python 中将 Pandas 系列的日期时间转换为字符串
发布时间:2024/04/24 浏览次数:894 分类:Python
-
了解如何在 Python 中将 Pandas 系列日期时间转换为字符串