r - R dcast 填充样本号

Question

我想知道在使用（库或）时是否有办法fill使用随机数来处理每个单独的缺失值。例子：dcastreshape2data.table

ID = c('AA', 'AA', 'BB', 'BB', 'CC', 'CC', 'CC', 'DD', 'DD')
Replica = c('H1','H3','H1','H2','H1','H2','H3','H2','H3')
Value = c(1.3, 2.5, 1.4, 3.7, 9.5, 7.4, 7.1, 1.8, 8.4)

example <- data.frame(ID=ID, Replica = Replica, Value = Value)

做一个简单的dcast

dfdc <- dcast(data=example, ID~Replica, value.var = 'Value', fill = sample(1:10, 1))

注意一些值是如何遗漏的：

  ID  H1  H2  H3
1 AA 1.3  NA 2.5
2 BB 1.4 3.7  NA
3 CC 9.5 7.4 7.1
4 DD  NA 1.8 8.4

我想用随机数填充每个缺失值，例如：

dfdc <- dcast(data=example, ID~Replica, value.var = 'Value', fill = sample(1:10, 1))

结果是：

  ID  H1  H2  H3
1 AA 1.3 2.0 2.5
2 BB 1.4 3.7 2.0
3 CC 9.5 7.4 7.1
4 DD 2.0 1.8 8.4

但是，所有缺失值都已替换为相同的随机数（在本例中为 2）。

是否可以将该函数单独应用于每个缺失值，从而用不同的随机数填充缺失值？

提前致谢！

score 3 · Accepted Answer

如果你不关心警告，你可以这样做fill = sample(10)，未使用的值将被删除。您仍然会收到三个随机数。只要确保您确定样本高于预期的NA值数量即可。

dcast(example, ID ~ Replica, fill = sample(10))
#   ID   H1  H2  H3
# 1 AA  1.3 4.0 2.5
# 2 BB  1.4 3.7 1.0
# 3 CC  9.5 7.4 7.1
# 4 DD 10.0 1.8 8.4
# Warning message:
# In ordered[is.na(ordered)] <- fill :
#   number of items to replace is not a multiple of replacement length

当然，你也可以简单地用它来包装它suppressWarnings()。

suppressWarnings(dcast(example, ID ~ Replica, fill = sample(10)))
#   ID  H1  H2  H3
# 1 AA 1.3 6.0 2.5
# 2 BB 1.4 3.7 5.0
# 3 CC 9.5 7.4 7.1
# 4 DD 9.0 1.8 8.4

score 3 · Accepted Answer

这是一个使用选项tidyverse

library(tidyverse)
complete(example, ID, Replica) %>%
    mutate(Value = coalesce(Value, as.numeric(sample(1:10, n(), replace=TRUE))))  %>%       
    spread(Replica, Value)
# A tibble: 4 × 4
#      ID    H1    H2    H3
#* <fctr> <dbl> <dbl> <dbl>
#1     AA   1.3   2.0   2.5
#2     BB   1.4   3.7   1.0
#3     CC   9.5   7.4   7.1
#4     DD   8.0   1.8   8.4

r - R dcast 填充样本号

2 回答 2

Related

Reference