Python 中 ParserError: Error Tokenizing Data C Error 错误
无论出于何种目的玩数据时,都必须对数据进行清理,即填充空值并删除无效条目以清理数据,因此不影响结果,程序运行流畅。
此外,ParserError 的原因:错误标记数据。 C 错误可能是在文件中提供了错误的数据,例如混合数据、不同数量的列或将多个数据文件存储为一个文件。
如果您将 CSV 文件读取为 read_csv 但提供不同的分隔符和行终止符,您也会遇到此错误。
什么是Python中 ParserError: Error tokenizing data. C error 错误
如前所述, 当您的 Python 程序解析 CSV 数据但遇到无效值、空值、未填充列等错误时,会发生 ParserError: Error tokenizing data. C error 错误。
假设我们在 data.csv 文件中有这个数据,我们正在使用它在 pandas 的帮助下读取,尽管它有一个错误。
Name,Roll,Course,Marks,CGPA
Ali,1,SE,87,3
John,2,CS,78,
Maria,3,DS,13,,
代码示例:
import pandas as pd
pd.read_csv('data.csv')
输出:
ParserError: Error tokenizing data. C error: Expected 5 fields in line 4, saw 6
如您所见,上面的代码从 data.csv 文件中读取数据时抛出了一个 ParserError: Error tokenizing data.C error 错误,表示编译器期望第 4 行中有 5 个字段,但得到的却是 6 个。
错误本身是不言自明的; 它指出了错误的确切位置并显示了错误的原因,因此我们可以修复它。
如何修复Python中 ParserError: Error tokenizing data.C error 错误
到目前为止,我们已经了解了 ParserError: Error tokenizing data。 Python 中的 C 错误; 现在让我们看看如何修复它。
始终建议在分析数据之前清理数据,因为它可能会影响结果或使程序无法运行。
数据清理有助于删除无效数据输入、空值和无效条目; 基本上,它是数据分析的预处理阶段。
在 Python 中,我们有不同的函数和参数来帮助清理数据并避免错误。
跳过行以修复 ParserError: Error tokenizing data. C error 错误
这是最常见的跳过行的技术之一,会导致错误; 从上面的数据可以看出,最后一行导致了错误。
现在使用参数 on_bad_lines = 'skip',它忽略了有问题的行并将剩余的存储在数据帧 df 中。
import pandas as pd
df = pd.read_csv('data.csv', on_bad_lines='skip')
df
输出:
Name Roll Course Marks CGPA
0 Ali 1 SE 87 3.0
1 John 2 CS 78 NaN
上面的代码将跳过所有导致错误的行并打印其他行; 正如您在输出中看到的那样,最后一行被跳过,因为它导致了错误。
但是我们得到了需要修复的 NaN 值; 否则会影响我们统计分析的结果。
使用正确的分隔符修复 ParserError: Error tokenizing data. C error 错误
使用无效的分隔符也可能导致 ParserError,因此根据您提供的数据使用正确且合适的分隔符很重要。
有时我们使用制表符来分隔 CSV 数据或空格,因此在您的程序中指定该分隔符也很重要。
import pandas as pd
pd.read_csv('data.csv', sep=',',on_bad_lines='skip' ,lineterminator='\n')
输出:
Name Roll Course Marks CGPA\r
0 Ali 1 SE 87 3\r
1 John 2 CS 78 \r
分隔符是 ,
这就是我们提到 sep=','
和行 lineterminator ='\n'
的原因,因为我们的行以 \n 结尾。
使用 dropna() 修复 ParserError: Error tokenizing data. C error 错误
dropna 函数用于删除包含任何 Null 或 NaN 值的所有行。
import pandas as pd
df = pd.read_csv('data.csv', on_bad_lines='skip')
print(" **** Before dropna ****")
print(df)
print("\n **** After dropna ****")
print(df.dropna())
输出:
**** Before dropna ****
Name Roll Course Marks CGPA
0 Ali 1 SE 87 3.0
1 John 2 CS 78 NaN
**** After dropna ****
Name Roll Course Marks CGPA
0 Ali 1 SE 87 3.0
由于我们只有两行,其中一行包含所有属性,但第二行包含 NaN 值,因此 dropna()
函数跳过了包含 NaN 值的行,只显示了一行。
使用 fillna() 函数填充 NaN 值
当您在数据中获得 NaN 值时,可以使用 fillna() 函数替换其他使用默认值 0 的值。
代码示例:
import pandas as pd
print(" **** Before fillna ****")
df = pd.read_csv('data.csv', on_bad_lines='skip')
print(df,"\n\n")
print(" **** After fillna ****")
print(df.fillna(0)) # using 0 inplace of NaN
输出:
**** Before fillna ****
Name Roll Course Marks CGPA
0 Ali 1 SE 87 3.0
1 John 2 CS 78 NaN
**** After fillna ****
Name Roll Course Marks CGPA
0 Ali 1 SE 87 3.0
1 John 2 CS 78 0.0
fillna()
已将 NaN 替换为 0,因此我们可以正确分析数据。
相关文章
Python 中错误 AttributeError: 'Dict' Object Has No Attribute 'Append'
发布时间:2023/05/30 浏览次数:87 分类:Python
-
dict是一种使用hash map的数据结构,区别于list。 它没有 append() 函数,而列表数据结构有 append() 函数。Python中错误AttributeError: 'Dict' Object Has No Attribute 'Append'
在 Python 中使用命令行时错误 SyntaxError: invalid syntax
发布时间:2023/05/30 浏览次数:57 分类:Python
-
本篇文章将讨论在 Python 中使用命令行时出现 SyntaxError: invalid syntax 的错误。
Python 错误 OSError: [WinError 10038] an Operation Was Attempted on Something T
发布时间:2023/05/30 浏览次数:94 分类:Python
-
通过这篇文章,我们将了解什么是服务器和客户端。Python 错误 OSError: [WinError 10038] An operation was attempted on something that is not a socket
Python 中错误 NameError: Name 'xrange' Is Not Defined
发布时间:2023/05/30 浏览次数:74 分类:Python
-
我们将了解在 Python3 中调用 xrange 函数时出现错误的原因,并了解如何解决此问题。 我们还将了解 range 和 xrange 之间的区别,并了解如何在不同的 Python 版本中使用 range 函数。
Python 错误 Fatal Python Error: Py_Initialize Unable to Load the File System Co
发布时间:2023/05/30 浏览次数:147 分类:Python
-
在本文中,我们将学习如何解决在代码执行期间发生的致命 python 错误。Python 错误 Fatal Python error: Py_Initialize: unable to load the file system codec
Python 错误 WebDriverException: Message: Geckodriver Executable Needs to Be in
发布时间:2023/05/30 浏览次数:187 分类:Python
-
本教程将讨论Python中错误 Message: 'geckodriver' executable needs to be in PATH。geckodriver 是 Mozilla 开发的浏览器引擎,充当 Selenium 和 Firefox 浏览器之间的链接。
Python 错误 Valueerror: Expected 2d Array, Got 1d Array Instead
发布时间:2023/05/30 浏览次数:107 分类:Python
-
当我们在 numpy 中传递一维数组而不是二维数组时,会发生错误 ValueError: Expected 2D array, got 1D array instead 。如您所知,每种编程语言都会遇到很多错误,有些是在运行时,有些是在编译时。 Pyth
解决 Python中错误 TypeError: Not All Arguments Converted During String Forma
发布时间:2023/05/30 浏览次数:139 分类:Python
-
模 (%) 运算符就是其中一种方法。 它是 Python 中最古老的字符串格式化方法之一,以错误的方式使用它可能会导致 TypeError: not all arguments converted during string formatting。
解决 Python中 TypeError: Nonetype Object Is Not Subscriptable 错误
发布时间:2023/05/30 浏览次数:162 分类:Python
-
在本文中,我们将讨论为什么 TypeError: NoneType object is not subscriptable 在 Python 中出现以及如何修复它。 我们将学习如何对序列数据类型错误地使用 append()、sort() 和 reverse() 等方法导致