在 R 中查找向量的模式
本文将解释如何在 R 中找到向量的众数的几种方法。
使用自定义函数查找 R 向量的众数
众数是最基本的统计概念之一,表示一组值中出现的最大值。因此,它可以在不同的数据类型中观察到,例如数字或基于字符。R 语言没有用于计算模式的内置函数,但我们可以使用函数来实现它:unique
、which.max
、tabulate
和 match
。我们定义了一个名为 FindMode
的函数,它接受一个表示为 x
的参数。首先,在 x
上调用 unique
函数并存储在一个单独的对象中。unique
从集合中提取非重复值。它可以将向量对象、数据框或数组作为第一个参数。
然后,我们有多个以 match
开头的链式函数,它接受两个向量并从它们返回位置匹配的向量。tabulate
函数计算并返回每个整数在向量中出现的次数。请注意,返回的向量包含每个小于或等于参数向量中最大整数的整数的计数。最后,which.max
函数查找整数向量中最大元素的索引。我们可以使用 apply
函数对数据框的每一列调用 FindMode
函数。在这种情况下,我们声明一个简单的整数向量作为数据帧存储,然后传递给 apply
函数来计算平均值。
library(purrr)
FindMode <- function(x) {
u <- unique(x)
u[which.max(tabulate(match(x, u)))]
}
x <- c(12, 44, 3, -4.2, 3, 3.2, 54, 4, -11, -8, 2.5)
df <- data.frame(x)
apply(df, 2, FindMode)
输出:
x
3
或者,我们可以直接在数据框上调用 FindMode
函数。以下示例代码演示了 datasets
包中包含的 cars
数据集的用法。
library(purrr)
FindMode <- function(x) {
u <- unique(x)
u[which.max(tabulate(match(x, u)))]
}
apply(cars, 2, FindMode)
输出:
speed dist
20 26
使用 map_dbl
将 FindMode
函数应用于 R 中的每个数据框列
另一个用于查找给定数据框每一列均值的有用函数是 map_dbl
,它是 tidyverse
中包含的 purrr
包的一部分。请注意,不会在矢量对象上调用这些方法。
library(purrr)
FindMode <- function(x) {
u <- unique(x)
u[which.max(tabulate(match(x, u)))]
}
x <- c(12, 44, 3, -4.2, 3, 3.2, 54, 4, -11, -8, 2.5)
df <- data.frame(x)
map_dbl(df, FindMode)
map_dbl(cars, FindMode)
输出:
x
3
speed dist
20 26
相关文章
R 中具有多个条件的函数向量化
发布时间:2023/03/21 浏览次数:64 分类:编程语言
-
一项常见的数据分析任务是根据同一行的其他列使用一个或多个条件创建或更新数据框列。 如果我们尝试使用 if 语句来执行此操作,则只会使用第一行来测试条件,并且会根据该行更
在 R 中读取 xlsx 文件
发布时间:2023/03/21 浏览次数:66 分类:编程语言
-
在这篇文章中,你将会了解到两个在 R 中读取 xlsx 文件的最完整和最容易使用的库:readxl 和 openxlsx。