我有一个非常简单的问题,我目前正在努力解决。如果我有一个示例数据框:
a <- c(1:5)
b <- c(1,3,5,9,11)
df1 <- data.frame(a,b)
如何创建一个新列 ('c'),然后使用 b 列上的 if 语句填充该列。例如: 'cat' 表示 b 中的值为 1 或 2 'dog' 表示 b 中的值介于 3 和 5 之间 'rabbit' 表示 b 中的值大于 6
因此,使用数据框 df1 的“c”列将显示为:猫、狗、狗、兔子、兔子。
提前谢谢了。
我有一个非常简单的问题,我目前正在努力解决。如果我有一个示例数据框:
a <- c(1:5)
b <- c(1,3,5,9,11)
df1 <- data.frame(a,b)
如何创建一个新列 ('c'),然后使用 b 列上的 if 语句填充该列。例如: 'cat' 表示 b 中的值为 1 或 2 'dog' 表示 b 中的值介于 3 和 5 之间 'rabbit' 表示 b 中的值大于 6
因此,使用数据框 df1 的“c”列将显示为:猫、狗、狗、兔子、兔子。
提前谢谢了。
dfrm$dc <- c("dog", "cat", "rabbit")[ findInterval(dfrm$b, c(1, 2.5, 5.5, Inf)) ]
findInterval 方法将比嵌套ifelse策略快得多,而且我猜测它比循环遍历未嵌套if语句的函数要快得多。当我们选择低效算法时,我们这些处理更大数据的人确实注意到了差异。
这实际上并没有解决这个请求,但我并不总是认为 R 的新用户会知道最有表现力或最有效的解决问题的方法。“使用 IF”的请求听起来像是在努力转换两个主要宏观统计处理器 SPSS 和 SAS 的典型编码方法。Rif控制结构通常不是重新编码列的有效方法,因为它的第一个位置的参数只会针对第一个元素进行评估。它本身不处理列,而ifelse函数会这样做。该cut函数可能已在此处使用(带有适当的breaks和labels参数),尽管它会传递一个factor-value 而不是字符值。这findInterval选择方法是因为它能够返回多个级别(单个级别ifelse不能)。我认为ifelse在大约 2 或 3 层嵌套之后,chaining 或 nesting 很快就会变得丑陋和混乱。
df1 <-
transform(
df1 ,
c =
ifelse( b %in% 1:2 , 'cat' ,
ifelse( b %in% 3:5 , 'dog' , 'rabbit' ) ) )
尽管 ifelse() 很有用,但有时它并不能提供人们直观期望的内容。所以,我喜欢把它写出来。
a <- c(1:5)
b <- c(1,3,5,9,11)
df1 <- data.frame(a,b)
species <- function(x) {
if(x == 1 | x == 2) y <- "cat"
if(x > 2 & x < 6) y <- "dog"
if(x > 6) y <- "rabbit"
return(y)
}
df1$c <- sapply(df1$b,species)