1

我想知道在使用(库或)时是否有办法fill使用随机数来处理每个单独的缺失值。例子:dcastreshape2data.table

ID = c('AA', 'AA', 'BB', 'BB', 'CC', 'CC', 'CC', 'DD', 'DD')
Replica = c('H1','H3','H1','H2','H1','H2','H3','H2','H3')
Value = c(1.3, 2.5, 1.4, 3.7, 9.5, 7.4, 7.1, 1.8, 8.4)

example <- data.frame(ID=ID, Replica = Replica, Value = Value)

做一个简单的dcast

dfdc <- dcast(data=example, ID~Replica, value.var = 'Value', fill = sample(1:10, 1))

注意一些值是如何遗漏的:

  ID  H1  H2  H3
1 AA 1.3  NA 2.5
2 BB 1.4 3.7  NA
3 CC 9.5 7.4 7.1
4 DD  NA 1.8 8.4

我想用随机数填充每个缺失值,例如:

dfdc <- dcast(data=example, ID~Replica, value.var = 'Value', fill = sample(1:10, 1))

结果是:

  ID  H1  H2  H3
1 AA 1.3 2.0 2.5
2 BB 1.4 3.7 2.0
3 CC 9.5 7.4 7.1
4 DD 2.0 1.8 8.4

但是,所有缺失值都已替换为相同的随机数(在本例中为 2)。

是否可以将该函数单独应用于每个缺失值,从而用不同的随机数填充缺失值?

提前致谢!

4

2 回答 2

3

如果你不关心警告,你可以这样做fill = sample(10),未使用的值将被删除。您仍然会收到三个随机数。只要确保您确定样本高于预期的NA值数量即可。

dcast(example, ID ~ Replica, fill = sample(10))
#   ID   H1  H2  H3
# 1 AA  1.3 4.0 2.5
# 2 BB  1.4 3.7 1.0
# 3 CC  9.5 7.4 7.1
# 4 DD 10.0 1.8 8.4
# Warning message:
# In ordered[is.na(ordered)] <- fill :
#   number of items to replace is not a multiple of replacement length

当然,你也可以简单地用它来包装它suppressWarnings()

suppressWarnings(dcast(example, ID ~ Replica, fill = sample(10)))
#   ID  H1  H2  H3
# 1 AA 1.3 6.0 2.5
# 2 BB 1.4 3.7 5.0
# 3 CC 9.5 7.4 7.1
# 4 DD 9.0 1.8 8.4
于 2017-02-22T02:14:22.667 回答
3

这是一个使用选项tidyverse

library(tidyverse)
complete(example, ID, Replica) %>%
    mutate(Value = coalesce(Value, as.numeric(sample(1:10, n(), replace=TRUE))))  %>%       
    spread(Replica, Value)
# A tibble: 4 × 4
#      ID    H1    H2    H3
#* <fctr> <dbl> <dbl> <dbl>
#1     AA   1.3   2.0   2.5
#2     BB   1.4   3.7   1.0
#3     CC   9.5   7.4   7.1
#4     DD   8.0   1.8   8.4
于 2017-02-22T02:29:23.983 回答