我试图弄清楚如何根据另一行更新一些行。
例如,我有一些数据,如
Id | useraname | ratings | city
--------------------------------
1, philip, 2.0, montreal, ...
2, john, 4.0, montreal, ...
3, charles, 2.0, texas, ...
我想将同一城市的用户更新为相同的 groupId(1 或 2)
Id | useraname | ratings | city
--------------------------------
1, philip, 2.0, montreal, ...
1, john, 4.0, montreal, ...
3, charles, 2.0, texas, ...
如何在我的 RDD 或 Dataset 中实现这一点?
因此,为了完整起见,如果Id
是一个字符串,密集等级将不起作用?
例如 ?
Id | useraname | ratings | city
--------------------------------
a, philip, 2.0, montreal, ...
b, john, 4.0, montreal, ...
c, charles, 2.0, texas, ...
所以结果看起来像这样:
grade | useraname | ratings | city
--------------------------------
a, philip, 2.0, montreal, ...
a, john, 4.0, montreal, ...
c, charles, 2.0, texas, ...