在 Linux 中计算文件中的唯一行

当前位置：主页 > 学无止境 > 操作系统 >

Git Docker

在 Linux 中计算文件中的唯一行

作者：迹忆客最近更新：2023/05/03 浏览次数：

计算文件中的唯一行是 Linux 中的一项常见任务，可以使用多种不同的工具和方法来执行此操作。一般来说，合适的方法取决于任务的具体要求和约束，例如输入文件的大小、性能和内存要求以及数据的格式和内容。

使用 sort 和 uniq 命令计算文件中的唯一行数

在 Linux 中计算文件中唯一行数的一种方法是使用 sort 和 uniq 命令。 sort 命令将输入的数据按照指定的顺序进行排序，uniq 命令从排序后的数据中过滤掉重复的行。

data.txt 文件包含本文示例的以下内容。

arg1
arg2
arg3
arg2
arg2
arg1

要计算文件中的唯一行数，可以使用以下命令：

sort data.txt | uniq -c | wc -l

输出:

此命令按升序（默认情况下）对 data.txt 文件进行排序，并将输出通过管道传递给 uniq 命令。 uniq 命令从排序数据中过滤掉任何重复行，并添加每行在输入中出现的次数计数。

然后将输出通过管道传输到 wc 命令，该命令计算输入中的行数并将结果打印到终端。

sort 和 uniq 命令是计算文件中唯一行数的简单而高效的工具，适用于大多数常见场景。但是，它们有一些限制和缺点，例如需要对输入数据进行排序，这对于大文件来说可能很慢并且占用大量内存。

此外，uniq 命令仅从已排序数据中删除相邻的重复行，因此它可能无法为某些输入提供预期的结果。

使用 awk 命令计算文件中的唯一行数

在 Linux 中计算文件中唯一行数的另一种方法是使用 awk 命令，这是一种功能强大的文本处理工具，可以对文本文件执行各种操作。 awk 命令有一个内置的关联数组数据结构，可以存储和统计输入中每一行的出现次数。

例如，要计算名为 data.txt 的文件中的唯一行数，可以使用以下命令：

awk '!a[$0]++' data.txt | wc -l

输出:

此命令使用 awk 命令读取 data.txt 文件并对每个输入行应用一个简单的条件。该条件使用 !a[$0]++ 表达式，它会为读取的每一行递增 a 数组的值。

这有效地计算了每行在输入中出现的次数，并将计数存储在数组中。

然后 awk 命令应用 ! a[$0] 表达式的运算符，它否定数组元素的值。这意味着只有数组中计数为 0 的行将通过条件并打印到输出。

然后将输出通过管道传输到 wc 命令，该命令计算输入中的行数并将结果打印到终端。

awk 命令还提供了几个选项和功能，可用于控制其行为和定制其输出。例如，您可以使用 -F 选项指定不同的字段分隔符或使用 -v 选项定义可在脚本中使用的变量。

您还可以使用 printf 函数以各种方式格式化 awk 命令的输出。

下面是一个更复杂的 awk 脚本示例，它使用这些功能来计算名为 data.txt 的文件中的唯一行数，其中每一行都是一个以逗号分隔的字段列表：

awk -F, '{a[$1]++} END {for (i in a) { printf "%s,%d\n", i, a[i] }}' data.txt | wc -l

输出:

该脚本使用 -F 选项指定 , 字符作为字段分隔符，它定义了一个数组，用于存储和计算输入中每个字段的出现次数。

然后 awk 命令读取 data.txt 文件的每一行，并为读取的每个字段递增数组的值。这有效地计算了每个唯一字段在输入中出现的次数。

脚本的 END 块在读取所有输入行后执行，并使用 for 循环遍历数组。 printf 函数用于格式化 awk 命令的输出，并将每个唯一字段及其计数打印到输出中。

然后将输出通过管道传输到 wc 命令，该命令计算输入中的行数并将结果打印到终端。

总之，在 Linux 中有几种计算文件中唯一行数的方法，适当的方法将取决于任务的具体要求和约束。 sort 和 uniq 命令是用于计算唯一行的简单而有效的工具，而 awk 命令提供了更高级的功能和选项来自定义脚本的输出和行为。

下一篇：在 Bash 中删除重复行

转载请发邮件至 1244347461@qq.com 进行申请，经作者同意之后，转载请以链接形式注明出处

本文地址：

迹忆客专注技术分享