Python 错误 UnicodeDecodeError: 'utf-8' codec can't decode invalid continuation byte
当我们在解码字节对象时指定不正确的编码时,会出现 Python 错误 “UnicodeDecodeError: 'utf-8' codec can't decode byte in position: invalid continuation byte”。 要解决错误,需要指定正确的编码,例如 latin-1
。
下面是产生该错误的示例代码
my_bytes = 'one é two'.encode('latin-1')
# ⛔️ UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 4: invalid continuation byte
my_str = my_bytes.decode('utf-8')
编码是将字符串转换为字节对象的过程,解码是将字节对象转换为字符串的过程。
解码字节对象时,我们必须使用与将字符串编码为字节对象相同的编码。
在示例中,我们可以将编码设置为 latin-1
。
my_bytes = 'one é two'.encode('latin-1')
my_str = my_bytes.decode('latin-1')
print(my_str)
如果我们在使用 pandas 从文件中读取时遇到错误,请尝试将编码设置为 latin-1
。
import pandas as pd
# 👇️ 将编码设置为 latin-1
df = pd.read_csv('employees.csv', sep='|', encoding='latin-1')
print(df)
如果使用本机 open()
函数,我们可以尝试做同样的事情。
import csv
with open('employees.csv', newline='', encoding='latin-1') as csvfile:
csv_reader = list(csv.reader(csvfile, delimiter='|'))
print(csv_reader)
如果错误仍然存在,我们可以将 errors 关键字参数设置为 ignore 以忽略无法解码的字符。
请注意,忽略无法解码的字符可能会导致数据丢失。
import csv
# 👇️ 设置错误忽略
with open('employees.csv', newline='', encoding='utf-8', errors='ignore') as csvfile:
csv_reader = list(csv.reader(csvfile, delimiter='|'))
print(csv_reader)
使用错误设置为忽略的错误编码打开文件不会引发 UnicodeDecodeError
。
如果我们必须从中读取文件,请确保没有以 rb
(二进制)模式打开文件。
如果我们不需要与文件的内容进行交互,我们可以在不解码的情况下以二进制模式打开它。
with open('example.txt', 'rb') as f:
lines = f.readlines()
# ✅ [b'\xf0\x9d\x98\x88\xe1\xb8\x86\xf0\x9d\x96\xa2\xf0\x9d\x95\xaf\xd9\xa4\xe1\xb8\x9e\xd4\x8d\xd0\x9d\xc7\x8f\n']
print(lines)
我们以二进制模式(使用 rb
模式)打开文件,因此行列表包含字节对象。
以二进制模式打开文件时不应指定编码。
如果我们需要将文件上传到远程服务器并且不需要对其进行解码,则可以使用此方法
请注意,如果我们尝试读取或写入 PDF 文件,则必须使用 rb
或 wb
模式,因为 PDF 文件存储为字节。
with open('example.pdf', 'rb') as file1:
my_bytes = file1.read()
# 👇️ 指定正确的编码
print(my_bytes.decode('latin-1'))
编码是将字符串转换为字节对象的过程,解码是将字节对象转换为字符串的过程。
解码字节对象时,我们必须使用与将字符串编码为字节对象相同的编码。
这是一个示例,它显示了如何使用与用于解码字节对象的编码不同的编码将字符串编码为字节导致错误。
my_text = 'one æåäãé two'
my_binary_data = my_text.encode('latin-1')
# ⛔️ UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe6 in position 4: invalid continuation byte
my_text_again = my_binary_data.decode('utf-8')
我们可以通过使用 latin-1
编码来解码字节对象来解决这个错误。
my_text = 'one æåäãé two'
my_binary_data = my_text.encode('latin-1')
my_text_again = my_binary_data.decode('latin-1')
print(my_text_again) # "one æåäãé two"
相关文章
Pandas DataFrame DataFrame.shift() 函数
发布时间:2024/04/24 浏览次数:133 分类:Python
-
DataFrame.shift() 函数是将 DataFrame 的索引按指定的周期数进行移位。
Python pandas.pivot_table() 函数
发布时间:2024/04/24 浏览次数:82 分类:Python
-
Python Pandas pivot_table()函数通过对数据进行汇总,避免了数据的重复。
Pandas read_csv()函数
发布时间:2024/04/24 浏览次数:254 分类:Python
-
Pandas read_csv()函数将指定的逗号分隔值(csv)文件读取到 DataFrame 中。
Pandas 多列合并
发布时间:2024/04/24 浏览次数:628 分类:Python
-
本教程介绍了如何在 Pandas 中使用 DataFrame.merge()方法合并两个 DataFrames。
Pandas loc vs iloc
发布时间:2024/04/24 浏览次数:837 分类:Python
-
本教程介绍了如何使用 Python 中的 loc 和 iloc 从 Pandas DataFrame 中过滤数据。
在 Python 中将 Pandas 系列的日期时间转换为字符串
发布时间:2024/04/24 浏览次数:894 分类:Python
-
了解如何在 Python 中将 Pandas 系列日期时间转换为字符串