我正在处理包含不同用户通话详细信息的文件。在数据文件中,有一个字段 call_duration
包含格式中的值hh:mm:ss
。例如:00:49:39
等00:20:00
我想计算每个用户每月的总通话时长。
我在 hive 中没有看到可以存储时间格式的数据类型hh:mm:ss
。(目前我在我的临时表中有这些数据作为字符串)。
我正在考虑编写一个将时间转换为秒的UDF,以便我可以call_duration
按用户进行 sum() 分组。
有没有人遇到过类似的情况?我应该去写一个UDF,因为有更好的方法吗?
非常感谢提前