Python 比较两个 CSV 文件并打印差异

当前位置：主页 > 学无止境 > 编程语言 > Python >

Python PHP Java Go TypeScript C++ Vba Node.js C语言 MATLAB

Python 比较两个 CSV 文件并打印差异

作者：迹忆客最近更新：2023/06/01 浏览次数：

本文将讨论比较两个 CSV 文件的各种方法。我们将包括执行此操作的最“Pythonic”方式和可帮助简化此任务的外部 Python 模块。

最后，我们将包括一种使用 Pandas DataFrames 识别 CSV 文件差异的方法。

我们假设需要比较的两个 CSV 文件的标题为 file1.csv 和 file2.csv。您可以根据需要重命名文件。

还请在下面给出的代码片段中适当地替换文件名。

出于示例目的，我们的文件设置如下：

file1.csv:

1,2,3,4,5,6
4,5,6,7,8,9
1,3,4,5,6,1

file2.csv:

1,2,3,4,5,6
4,5,6,7,8,9
2,3,1,4,1,5

方法 1：使用最 Pythonic 的解决方案比较两个 CSV 文件

在这个方法中，我们将文件的内容读入两个列表，遍历其中一个列表并检查每一行是否存在于第二个列表中。从逻辑上讲，这是一个非常简单的解决方案。

Python 的潜在效率使这种比较相当有效，尽管它看起来像。

with open('file1.csv', 'r') as file1, open('file2.csv', 'r') as file2:
    f1_contents = file1.readlines()
    f2_contents = file2.readlines()

for line in f1_contents:
    if line not in f2_contents:
        print(line)

for line in f2_contents:
    if line not in f1_contents:
        print(line)

上面的代码片段会将不同的行打印到您的终端。

在我们的测试用例中，我们得到以下输出。

1,3,4,5,6,1

2,3,1,4,1,5

方法 2：使用 csv-diff - 外部模块比较两个 CSV 文件

首先，在终端中使用以下命令安装模块。

python3 -m pip install csv-diff

安装后，您无需编写 Python 脚本。您可以使用以下命令直接在终端中运行它。

csv-diff file1.csv file2.csv --key=id

运行此命令将在您的终端上显示差异。

在我们的测试用例中，我们得到以下输出。

1 row added, 1 row removed

1 row added

  1: 2
  2: 3
  3: 1
  4: 4
  5: 1
  6: 5

1 row removed

  1: 1
  2: 3
  3: 4
  4: 5
  5: 6
  6: 1

要将此模块用作 Python 脚本的一部分，您可以编写类似于以下内容的脚本。

from csv_diff import load_csv, compare

difference = compare(
    load_csv(open("file1.csv")),
    load_csv(open("file2.csv"))
)
print(difference)

输出如下。

{'added': [{'1': '2', '2': '3', '3': '1', '4': '4', '5': '1', '6': '5'}], 'removed': [{'1': '1', '2': '3', '3': '4', '4': '5', '5': '6', '6': '1'}], 'changed': [], 'columns_added': [], 'columns_removed': []}

方法 3：使用 Pandas DataFrames 比较两个 CSV 文件

以下脚本可以为您执行此任务。

import pandas as pd
import sys
import csv

def dataframe_difference(df1: pd.DataFrame, df2: pd.DataFrame, which=None):

    comparison_df = df1.merge(
        df2,
        indicator=True,
        how='outer'
    )

    if which is None:
        diff_df = comparison_df[comparison_df['_merge'] != 'both']
    else:
        diff_df = comparison_df[comparison_df['_merge'] == which]


    return diff_df

if __name__ == "__main__":
    df1 = pd.read_csv("file1.csv", header=None)
    df2 = pd.read_csv("file2.csv", header=None)

    print(dataframe_difference(df1, df2))

请注意，在 read_csv 方法中，参数 header=None 被输入，因为我们的测试文件没有任何标题。如果您的文件有标题，您可以使用以下方法读取它：pd.read_csv("file1.csv")，其中 file1.csv 将被您的文件替换。

如果您的文件不在与脚本相同的目录中，请提供 CSV 文件的完整路径。

上面的 Python 脚本应该生成如下输出：

   0  1  2  3  4  5      _merge
2  1  3  4  5  6  1   left_only
3  2  3  1  4  1  5  right_only

left_only 和 right_only 旁边的行包含所有差异。 _merge 旁边的行仅表示索引。

上一篇：Python 将 CSV 分割成多个文件

下一篇：Python 中的短路评估

转载请发邮件至 1244347461@qq.com 进行申请，经作者同意之后，转载请以链接形式注明出处

本文地址：

Pandas DataFrame DataFrame.shift() 函数

发布时间：2024/04/24 浏览次数：133 分类：Python

DataFrame.shift() 函数是将 DataFrame 的索引按指定的周期数进行移位。

Pandas pandas.melt() 函数

发布时间：2024/04/24 浏览次数：101 分类：Python

pandas.melt()函数可以转换 DataFrame。

Python pandas.pivot_table() 函数

发布时间：2024/04/24 浏览次数：82 分类：Python

Python Pandas pivot_table()函数通过对数据进行汇总，避免了数据的重复。

Pandas read_csv()函数

发布时间：2024/04/24 浏览次数：254 分类：Python

Pandas read_csv()函数将指定的逗号分隔值(csv)文件读取到 DataFrame 中。

Pandas 追加数据到 CSV 中

发布时间：2024/04/24 浏览次数：352 分类：Python

本教程演示了如何在追加模式下使用 to_csv()向现有的 CSV 文件添加数据。

Pandas 多列合并

发布时间：2024/04/24 浏览次数：628 分类：Python

本教程介绍了如何在 Pandas 中使用 DataFrame.merge()方法合并两个 DataFrames。

用多个条件过滤 Pandas DataFrame

发布时间：2024/04/24 浏览次数：649 分类：Python

本教程解释了如何根据多个条件从 DataFrame 中过滤元素。

Pandas loc vs iloc

发布时间：2024/04/24 浏览次数：837 分类：Python

本教程介绍了如何使用 Python 中的 loc 和 iloc 从 Pandas DataFrame 中过滤数据。

在 Python 中将 Pandas 系列的日期时间转换为字符串

发布时间：2024/04/24 浏览次数：894 分类：Python

了解如何在 Python 中将 Pandas 系列日期时间转换为字符串

迹忆客专注技术分享