在 Bash 中删除重复行

当前位置：主页 > 学无止境 > 操作系统 >

Git Docker

在 Bash 中删除重复行

作者：迹忆客最近更新：2023/05/03 浏览次数：

重复条目会在 Bash 脚本中导致各种问题，例如不正确或不一致的结果，它们还会使脚本难以维护。从脚本中删除重复的条目通常是避免这些问题的必要条件，在 Bash 中有很多方法可以做到这一点。

使用 sort 和 uniq 删除 Bash 中的重复行

删除 Bash 脚本中重复条目的一种方法是使用 sort 和 uniq 命令。 sort 命令将输入的数据按照指定的顺序进行排序，uniq 命令从排序后的数据中过滤掉重复的行。

data.txt 文件包含本文示例的以下内容。

arg1
arg2
arg3
arg2
arg2
arg1

要从上面的文件中删除重复的条目，您可以使用以下命令：

sort data.txt | uniq > data-unique.txt

输出 (touch data-unique.txt):

arg1
arg2
arg3

此命令按升序（默认情况下）对 data.txt 文件进行排序，并将输出通过管道传递给 uniq 命令。 uniq 命令从排序的数据中过滤掉重复的行，并将结果写入一个名为 data-unique.txt 的新文件。

这将从 data.txt 文件中删除所有重复的条目，并创建一个包含唯一条目的新文件。

uniq 命令有几个可用于控制其行为的选项，例如 -d 选项仅打印重复行，或 -c 选项打印每行在输入中出现的次数。例如打印data.txt文件中每一行出现的次数，可以使用如下命令：

sort data.txt | uniq -c

此命令与前一个命令类似，但将 -c 选项添加到 uniq 命令。这将打印每行在输入中出现的次数以及该行本身。

例如，结果可能如下所示：

2 arg1
3 arg2
1 arg3

此输出显示第 1 行出现。

使用 awk 命令删除 Bash 中的重复行

在 Bash 脚本中删除重复条目的另一种方法是使用 awk 命令，这是一种功能强大的文本处理工具，可以对文本文件执行多种操作。 awk 命令有一个内置的关联数组数据结构，可以存储和统计输入中每一行的出现次数。

例如，要从与之前相同的文件中删除重复条目，您可以使用以下命令：

awk '!a[$0]++' data.txt > data-unique.txt

输出:

arg1
arg2
arg3

此命令使用 awk 命令读取 data.txt 文件并对每个输入行应用一个简单的条件。该条件使用 !a[$0]++ 表达式，它会为读取的每一行递增 a 数组的值。

这有效地计算了每行在输入中出现的次数，并将计数存储在数组中。

然后 awk 命令应用 !a[$0] 表达式的运算符，它否定数组元素的值。这意味着只有数组中计数为 0 的行将通过条件并打印到输出。然后将输出重定向到一个名为 data-unique.txt 的新文件，其中包含来自 data.txt 文件的唯一条目。

awk 命令还提供了几个选项和功能，可用于控制其行为和定制其输出。例如，您可以使用 -F 选项指定不同的字段分隔符或使用 -v 选项在脚本中定义变量。

您还可以使用 printf 函数以各种方式格式化 awk 命令的输出。

sort 和 uniq 命令是用于删除重复条目的简单而有效的工具，而 awk 命令提供了更高级的功能和选项，用于自定义脚本的输出和行为。

上一篇：在 Linux 中计算文件中的唯一行

下一篇：在 Bash 中将 Stderr 和 Stdout 重定向到一个文件

转载请发邮件至 1244347461@qq.com 进行申请，经作者同意之后，转载请以链接形式注明出处

本文地址：

迹忆客专注技术分享