同事们好。我有一个大数据集(大约 237 000 000 行)。有很多列。例如,我需要删除所有具有列名的重复项userId, VTS。
userId Vts moreColumn1 moreColumn2
10 150 2 3 -delete
11 160 1 6
10 150 0 1 -delete
我对 SQL 不好。尝试了与 Internet 不同的变体,但它不起作用。
更新:
泰求答案!我忘了说我用的是java。有我为java优化的代码:
viewingDataset.groupBy("userId", "VTS")
.count()
.where("count = 1")
.drop("count")
.join(viewingDataset, JavaConversions.asScalaBuffer(asList("userId", "VTS")))