2

我想根据“引导”变量分离变量。x3 在以下情况下:

set.seed(2)
df = data.frame(x1 = sample(4), x2 = sample(4), x3 = sample(letters[1:2], size = 4, replace = TRUE))
df
#   x1 x2 x3
# 1  1  4  a
# 2  3  3  b
# 3  2  1  b
# 4  4  2  a

# Desired output
# x3 x1.a x2.a x1.b x2.b
#  a    1    4   NA   NA
#  b   NA   NA    3    3
#  b   NA   NA    2    1
#  a    4    2   NA   NA

我以某种方式感觉到这可以实现,reshape2::dcast()但我只能让它总共为两个变量工作:

reshape2::dcast(df[,2:3], seq_along(x3) ~ x3, value.var = "x2")[, -1]
#    a  b
# 1  2 NA
# 2 NA  1
# 3 NA  3
# 4  4 NA

但可能这只是对dcast. 这个问题是否有一个优雅的解决方案,无需拆分和合并df


编辑:有些人提到这样做是一个可怕的想法,我可能不应该这样做。让我详细说明什么时候这才有意义。

想象一下x3是特定算法的开关。在这种情况下ab是选项。此外x1x2是两种算法都可以采用的参数。不幸的是,这两种算法在相同的参数设置上表现得非常不同,x1因此x2将它们作为不同的特征来处理以考虑它们的不相关性是有意义的。

4

4 回答 4

5

这是一个使用创建虚拟交互项的解决方案X3dplyr可能可以使用or将所有这些代码放入一行中,data.table但这里是:

temp <- model.matrix( ~ (x1+x2):x3-1, df)
temp[model.matrix( ~ (I(x1+1)+I(x2+1)):x3-1, df) == temp] <- NA
data.frame(df$x3, temp)
####  df.x3 x1.x3a x1.x3b x3a.x2 x3b.x2
####      a      1     NA      4     NA
####      b     NA      3     NA      3
####      b     NA      2     NA      1
####      a      4     NA      2     NA

列的最终名称和顺序与您略有不同。

注意:(第二行代码的目的)。model.matrix函数创建零而不是,因此无法NAs区分与预先存在的零的区别。第二行是仅找到最终 NA 的技巧(它通过创建第二个模型矩阵同时将其值更改为+1)。

于 2016-09-26T15:42:12.740 回答
3

如果您再添加一列并做一个中介,melt这可以实现。dcastmelt

library(reshape2)
library(magrittr)

set.seed(2)
df = data.frame(x1 = sample(4), x2 = sample(4), x3 = sample(letters[1:2], size = 4, replace = TRUE))

df$row <- 1:nrow(df)

melt(df, 
     id.vars = c("row", "x3"), 
     measure.vars = c("x1", "x2")) %>%
  dcast(row ~ x3 + variable, 
        value.var = "value")

但是,它的运行速度比agenis 的解决方案慢2-3 倍,即使我将数据框的大小推高至10,000 行也是如此。(8 对 16 毫秒)。

于 2016-09-26T15:59:58.463 回答
2

我自己提出的一个基本解决方案:

cat.var = "x3"
cont.vars = setdiff(colnames(df), cat.var)
categories = unique(df[[cat.var]])
res = lapply(categories, function(x) {
  this.df = df[, cont.vars, drop = FALSE]
  this.df[df[[cat.var]] != x,] = NA
  setNames(this.df, paste0(x,".",colnames(this.df)))
})
res = do.call(cbind, c(list(df[, cat.var, drop=FALSE]), res))
res

#   x3 a.x1 a.x2 b.x1 b.x2
# 1  a    1    4   NA   NA
# 2  b   NA   NA    3    3
# 3  b   NA   NA    2    1
# 4  a    4    2   NA   NA
于 2016-09-26T16:02:55.247 回答
1

你可以使用tidyr

library(tidyr);library(dplyr)
df <- df %>% mutate(rows=rownames(.)) %>% 
gather(., key="vars", value= "val", -x3,-rows) %>%
    mutate(vars= paste(x3,vars, sep=".")) %>%  
spread(., key = vars, value = val) %>%
select(-rows)

它将数据集收集成长格式,分别保存 x3 变量,然后在创建所需的变量标题后,再次传播数据。

于 2016-09-26T16:39:29.953 回答