11

我最近发现了 data.table 包,现在想知道是否应该替换我的一些 plyr 代码。总而言之,我真的很喜欢 plyr,我基本上实现了我想要的一切。但是,我的代码运行了一段时间,加快速度的前景足以让我运行一些测试。这些测试很快就结束了,这就是原因。

我经常用 plyr 做的是按包含日期的列拆分我的数据并进行一些计算:

library(plyr)
DF <-  data.frame(Date=rep(c(Sys.time(), Sys.time() + 60), each=6), y=c(rnorm(6, 1), rnorm(6, -1)))
#Split up data and apply arbitrary function
ddply(DF, .(Date), function(df){mean(df$y) - df[nrow(df), "y"]})

但是,在 data.table 中使用具有日期格式的列似乎不起作用:

library(data.table)
DT <- data.table(Date=rep(c(Sys.time(), Sys.time() + 60), each=6), y=c(rnorm(6, 1), rnorm(6, -1)))
setkey(DT, Date)
#Error in setkey(DT, Date) : Column 'Date' cannot be auto converted to integer without losing information.

如果我正确理解了这个包,我只有在使用 setkey() 时才能得到显着的加速。另外,我认为在日期和数字之间不断转换并不是一个好的编码。那么我是否遗漏了一些东西,或者没有简单的方法可以通过 data.table 实现这一点?

sessionInfo()
R version 2.13.1 (2011-07-08)
Platform: x86_64-pc-mingw32/x64 (64-bit)

locale:
[1] C

attached base packages:
[1] grid      stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] data.table_1.6.3 zoo_1.7-2        lubridate_0.2.5  ggplot2_0.8.9    proto_0.3-9.2    reshape_0.8.4   
[7] reshape2_1.1     xtable_1.5-6     plyr_1.5.2      

loaded via a namespace (and not attached):
[1] digest_0.5.0    lattice_0.19-30 stringr_0.5     tools_2.13.1 
4

1 回答 1

8

这应该有效:

DT <- data.table(Date=as.ITime(rep(c(Sys.time(), Sys.time() + 60), each=6)),
                 y=c(rnorm(6, 1), rnorm(6, -1)))
setkey(DT, Date)

data.table 包包含一些具有整数存储模式的日期/时间类。见?IDateTime

具有整数存储的日期和时间类,用于快速排序和分组。还是实验性的!

  • IDate是派生自 的日期类Date。它与类具有相同的内部表示Date,除了存储模式是整数。
  • ITime是一个时间类,存储为一天中的整数秒数。as.ITime不允许天数超过 24 小时。因为ITime是以秒为单位存储的,所以可以将其添加到POSIXct对象中,但不应将其添加到Date对象中。
  • IDateTime接受日期时间输入并返回包含列date和的数据表time
于 2011-08-08T08:10:37.347 回答