r - 合并数据框中的行，其中行不相交并包含 NA

Question

我有一个有两行的数据框：

| code | name  | v1 | v2 | v3 | v4 |
|------|-------|----|----|----|----|
| 345  | Yemen | NA | 2  | 3  | NA |
| 346  | Yemen | 4  | NA | NA | 5  |

有没有一种简单的方法来合并这两行？如果我在“346”中重命名“345”会怎样，这会让事情变得更容易吗？

score 11 · Accepted Answer

您可以使用aggregate. 假设您要合并 column 中具有相同值的行name：

aggregate(x=DF[c("v1","v2","v3","v4")], by=list(name=DF$name), min, na.rm = TRUE)
   name v1 v2 v3 v4
1 Yemen  4  2  3  5

这就像 SQL SELECT name, min(v1) GROUP BY name。该min函数是任意的，您也可以使用maxor mean，它们都从 NA 返回非 NA 值，如果则返回非 NA 值na.rm = TRUE。（如果存在于 R 中，类似 SQL 的coalesce()函数听起来会更好。）

但是，您应该首先检查给定的所有非 NA 值name是否相同。例如，使用 and 运行aggregate两者min并max进行比较，或使用range.

最后，如果您有比 v1-4 更多的变量，您可以使用它DF[,!(names(DF) %in% c("code","name"))]来定义列。

score 4 · Accepted Answer

添加dplyr和data.table解决方案的完整性

使用dplyr::coalesce()

library(dplyr)

sum_NA <- function(x) {if (all(is.na(x))) x[NA_integer_] else sum(x, na.rm = TRUE)}

df %>% 
  group_by(name) %>% 
  summarise_all(sum_NA)
#> # A tibble: 1 x 6
#>   name   code    v1    v2    v3    v4
#>   <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 Yemen   691     4     2     3     5

# Ref: https://stackoverflow.com/a/45515491
# Supply lists by splicing them into dots:
coalesce_by_column <- function(df) {
  return(dplyr::coalesce(!!! as.list(df)))
}

df %>% 
  group_by(name) %>% 
  summarise_all(coalesce_by_column)
#> # A tibble: 1 x 6
#>   name   code    v1    v2    v3    v4
#>   <fct> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1 Yemen   345     4     2     3     5

使用data.table

# Ref: https://stackoverflow.com/q/28036294/
library(data.table)
setDT(df)[, lapply(.SD, na.omit), by = name]
#>     name code v1 v2 v3 v4
#> 1: Yemen  345  4  2  3  5
#> 2: Yemen  346  4  2  3  5

setDT(df)[, code := NULL][, lapply(.SD, na.omit), by = name]    
#>     name v1 v2 v3 v4
#> 1: Yemen  4  2  3  5

setDT(df)[, code := NULL][, lapply(.SD, sum_NA), by = name]
#>     name v1 v2 v3 v4
#> 1: Yemen  4  2  3  5

r - 合并数据框中的行，其中行不相交并包含 NA

2 回答 2

Related

Reference