迹忆客 专注技术分享

当前位置:主页 > 学无止境 > 编程语言 > Python >

Python 错误 UnicodeDecodeError: 'utf-8' codec can't decode invalid continuation byte

作者:迹忆客 最近更新:2023/04/22 浏览次数:

当我们在解码字节对象时指定不正确的编码时,会出现 Python 错误 “UnicodeDecodeError: 'utf-8' codec can't decode byte in position: invalid continuation byte”。 要解决错误,需要指定正确的编码,例如 latin-1

python UnicodeDecodeError utf-8

下面是产生该错误的示例代码

my_bytes = 'one é two'.encode('latin-1')

# ⛔️ UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 4: invalid continuation byte
my_str = my_bytes.decode('utf-8')

编码是将字符串转换为字节对象的过程,解码是将字节对象转换为字符串的过程。

解码字节对象时,我们必须使用与将字符串编码为字节对象相同的编码。

在示例中,我们可以将编码设置为 latin-1

my_bytes = 'one é two'.encode('latin-1')

my_str = my_bytes.decode('latin-1')

print(my_str)

如果我们在使用 pandas 从文件中读取时遇到错误,请尝试将编码设置为 latin-1

import pandas as pd

# 👇️ 将编码设置为 latin-1
df = pd.read_csv('employees.csv', sep='|', encoding='latin-1')

print(df)

如果使用本机 open() 函数,我们可以尝试做同样的事情。

import csv

with open('employees.csv', newline='', encoding='latin-1') as csvfile:
    csv_reader = list(csv.reader(csvfile, delimiter='|'))

    print(csv_reader)

如果错误仍然存在,我们可以将 errors 关键字参数设置为 ignore 以忽略无法解码的字符。

请注意,忽略无法解码的字符可能会导致数据丢失。

import csv

# 👇️ 设置错误忽略
with open('employees.csv', newline='', encoding='utf-8', errors='ignore') as csvfile:
    csv_reader = list(csv.reader(csvfile, delimiter='|'))

    print(csv_reader)

使用错误设置为忽略的错误编码打开文件不会引发 UnicodeDecodeError

如果我们必须从中读取文件,请确保没有以 rb(二进制)模式打开文件。

如果我们不需要与文件的内容进行交互,我们可以在不解码的情况下以二进制模式打开它。

with open('example.txt', 'rb') as f:
    lines = f.readlines()

    # ✅ [b'\xf0\x9d\x98\x88\xe1\xb8\x86\xf0\x9d\x96\xa2\xf0\x9d\x95\xaf\xd9\xa4\xe1\xb8\x9e\xd4\x8d\xd0\x9d\xc7\x8f\n']
    print(lines)

我们以二进制模式(使用 rb 模式)打开文件,因此行列表包含字节对象。

以二进制模式打开文件时不应指定编码。

如果我们需要将文件上传到远程服务器并且不需要对其进行解码,则可以使用此方法

请注意,如果我们尝试读取或写入 PDF 文件,则必须使用 rbwb 模式,因为 PDF 文件存储为字节。

with open('example.pdf', 'rb') as file1:
    my_bytes = file1.read()

    # 👇️ 指定正确的编码
    print(my_bytes.decode('latin-1'))

编码是将字符串转换为字节对象的过程,解码是将字节对象转换为字符串的过程。

解码字节对象时,我们必须使用与将字符串编码为字节对象相同的编码。

这是一个示例,它显示了如何使用与用于解码字节对象的编码不同的编码将字符串编码为字节导致错误。

my_text = 'one æåäãé two'

my_binary_data = my_text.encode('latin-1')

# ⛔️ UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe6 in position 4: invalid continuation byte
my_text_again = my_binary_data.decode('utf-8')

我们可以通过使用 latin-1 编码来解码字节对象来解决这个错误。

my_text = 'one æåäãé two'

my_binary_data = my_text.encode('latin-1')

my_text_again = my_binary_data.decode('latin-1')

print(my_text_again)  # "one æåäãé two"

转载请发邮件至 1244347461@qq.com 进行申请,经作者同意之后,转载请以链接形式注明出处

本文地址:

相关文章

Django 中的 Slug

发布时间:2023/05/04 浏览次数:173 分类:Python

本篇文章旨在定义一个 slug 以及我们如何使用 slug 字段在 Python 中使用 Django 获得独特的帖子。

Django ALLOWED_HOSTS 介绍

发布时间:2023/05/04 浏览次数:181 分类:Python

本文展示了如何创建您的 Django 网站,为公开发布做好准备,如何设置 ALLOWED_HOSTS 以及如何在使用 Django 进行 Web 部署期间修复预期的主要问题。

Django 中的 Select_related 方法

发布时间:2023/05/04 浏览次数:129 分类:Python

本文介绍了什么是查询集,如何处理这些查询以及我们如何利用 select_related() 方法来过滤 Django 中相关模型的查询。

在 Django 中上传媒体文件

发布时间:2023/05/04 浏览次数:198 分类:Python

在本文中,我们简要介绍了媒体文件以及如何在 Django 项目中操作媒体文件。

Django 返回 JSON

发布时间:2023/05/04 浏览次数:106 分类:Python

在与我们的讨论中,我们简要介绍了 JSON 格式,并讨论了如何借助 Django 中的 JsonResponse 类将数据返回为 JSON 格式。

在 Django 中创建对象

发布时间:2023/05/04 浏览次数:59 分类:Python

本文的目的是解释什么是模型以及如何使用 create() 方法创建对象,并了解如何在 Django 中使用 save() 方法。

在 Django 中为多项选择创建字段

发布时间:2023/05/04 浏览次数:75 分类:Python

在本文中,我们将着眼于为多项选择创建一个字段,并向您展示如何允许用户在 Django 中进行多项选择。

扫一扫阅读全部技术教程

社交账号
  • https://www.github.com/onmpw
  • qq:1244347461

最新推荐

教程更新

热门标签

扫码一下
查看教程更方便