在 Linux 中计算文件中的唯一行
计算文件中的唯一行是 Linux 中的一项常见任务,可以使用多种不同的工具和方法来执行此操作。 一般来说,合适的方法取决于任务的具体要求和约束,例如输入文件的大小、性能和内存要求以及数据的格式和内容。
使用 sort 和 uniq 命令计算文件中的唯一行数
在 Linux 中计算文件中唯一行数的一种方法是使用 sort 和 uniq 命令。 sort 命令将输入的数据按照指定的顺序进行排序,uniq 命令从排序后的数据中过滤掉重复的行。
data.txt 文件包含本文示例的以下内容。
arg1
arg2
arg3
arg2
arg2
arg1
要计算文件中的唯一行数,可以使用以下命令:
sort data.txt | uniq -c | wc -l
输出:
3
此命令按升序(默认情况下)对 data.txt 文件进行排序,并将输出通过管道传递给 uniq 命令。 uniq 命令从排序数据中过滤掉任何重复行,并添加每行在输入中出现的次数计数。
然后将输出通过管道传输到 wc 命令,该命令计算输入中的行数并将结果打印到终端。
sort 和 uniq 命令是计算文件中唯一行数的简单而高效的工具,适用于大多数常见场景。 但是,它们有一些限制和缺点,例如需要对输入数据进行排序,这对于大文件来说可能很慢并且占用大量内存。
此外,uniq 命令仅从已排序数据中删除相邻的重复行,因此它可能无法为某些输入提供预期的结果。
使用 awk 命令计算文件中的唯一行数
在 Linux 中计算文件中唯一行数的另一种方法是使用 awk 命令,这是一种功能强大的文本处理工具,可以对文本文件执行各种操作。 awk 命令有一个内置的关联数组数据结构,可以存储和统计输入中每一行的出现次数。
例如,要计算名为 data.txt 的文件中的唯一行数,可以使用以下命令:
awk '!a[$0]++' data.txt | wc -l
输出:
3
此命令使用 awk 命令读取 data.txt 文件并对每个输入行应用一个简单的条件。 该条件使用 !a[$0]++ 表达式,它会为读取的每一行递增 a 数组的值。
这有效地计算了每行在输入中出现的次数,并将计数存储在数组中。
然后 awk 命令应用 ! a[$0]
表达式的运算符,它否定数组元素的值。 这意味着只有数组中计数为 0 的行将通过条件并打印到输出。
然后将输出通过管道传输到 wc 命令,该命令计算输入中的行数并将结果打印到终端。
awk 命令还提供了几个选项和功能,可用于控制其行为和定制其输出。 例如,您可以使用 -F 选项指定不同的字段分隔符或使用 -v 选项定义可在脚本中使用的变量。
您还可以使用 printf 函数以各种方式格式化 awk 命令的输出。
下面是一个更复杂的 awk 脚本示例,它使用这些功能来计算名为 data.txt 的文件中的唯一行数,其中每一行都是一个以逗号分隔的字段列表:
awk -F, '{a[$1]++} END {for (i in a) { printf "%s,%d\n", i, a[i] }}' data.txt | wc -l
输出:
3
该脚本使用 -F 选项指定 , 字符作为字段分隔符,它定义了一个数组,用于存储和计算输入中每个字段的出现次数。
然后 awk
命令读取 data.txt 文件的每一行,并为读取的每个字段递增数组的值。 这有效地计算了每个唯一字段在输入中出现的次数。
脚本的 END 块在读取所有输入行后执行,并使用 for 循环遍历数组。 printf 函数用于格式化 awk 命令的输出,并将每个唯一字段及其计数打印到输出中。
然后将输出通过管道传输到 wc 命令,该命令计算输入中的行数并将结果打印到终端。
总之,在 Linux 中有几种计算文件中唯一行数的方法,适当的方法将取决于任务的具体要求和约束。 sort 和 uniq 命令是用于计算唯一行的简单而有效的工具,而 awk 命令提供了更高级的功能和选项来自定义脚本的输出和行为。
相关文章
如何在 CentOS 中获取 IP 地址
发布时间:2023/05/04 浏览次数:108 分类:操作系统
-
这篇简短的文章是对 CentOS 的一个简短介绍,然后简要讨论了我们如何使用命令行界面 (CLI) 在 CentOS 中获取服务器 IP 地址。
在 Linux 中更新 YUM
发布时间:2023/05/04 浏览次数:82 分类:操作系统
-
本文介绍了 Linux 中的 yum update 命令。本文将教我们如何在 Linux 中更新 YUM,以及如何在 Linux 系统上安装、更新、删除、查找和管理包。
在 Linux 中安装 Deb 文件
发布时间:2023/05/04 浏览次数:130 分类:操作系统
-
本文介绍如何在 Linux 中安装 deb 文件。在这篇 Linux 文章中,我们将学习如何在 Linux 系统上安装 .deb(Debian 软件包)文件。 我们还将看到如何在安装后删除 .deb 文件。
Linux 中的 lsof 命令
发布时间:2023/05/04 浏览次数:82 分类:操作系统
-
在这篇 Linux 文章中,我们将了解 Linux 操作系统中的 lsof 命令。 我们将看到如何在 Linux 中将此命令用于不同目的。
Linux 解决不能执行二进制文件问题
发布时间:2023/05/04 浏览次数:187 分类:操作系统
-
在本文中,我们将学习如何在 Linux 中执行二进制文件。 如果 Linux 无法执行二进制文件,我们还将学习如何解决错误。
Linux 中错误 Mesg: Ttyname Failed: Inappropriate Ioctl for Device Error
发布时间:2023/05/04 浏览次数:145 分类:操作系统
-
本文介绍如何在 Linux 中解决 mesg: ttyname failed: inappropriate ioctl for device 错误。在 Linux 中,这个错误是由于默认的 vagrant 配置 config.ssh.shell 与 bash -l 交互导致的。
Linux 中的 ps aux 命令
发布时间:2023/05/04 浏览次数:69 分类:操作系统
-
本篇文章将讨论 Linux 中的 ps aux 命令。如果将 aux 快捷方式与 ps 命令一起使用,它将显示用户需要的最多信息,并可以为您提供系统运行进程的当前状态。
Linux 中的 NTP
发布时间:2023/05/04 浏览次数:137 分类:操作系统
-
本篇文章将讨论 Linux 中的 ntp。NTP 是大多数 IT 基础设施使用的核心协议。 使用它的目的是同步日期和时间信息。
在 Bash 中创建进度条
发布时间:2023/05/04 浏览次数:164 分类:操作系统
-
这是有关在 Bash 中创建进度条以显示正在运行的命令或进程的进度的指南。本文将探讨在 Bash(Linux 和 macOS 的默认 shell)中向 shell 脚本添加进度条的几种方法。使用 pv 命令在 Bash 中创建进度条