3

看起来无法执行嵌套 RDD 操作是 Spark 现在面临的一个限制。

目前,我有两个从不同表加载的数据集(比如 A 和 B),对于数据集 A 中的每条记录,我需要查询另一个数据集 B。结果在提交到数据库之前会进一步转换。

正如我见过的其他一些 SO 问题中所建议的那样,在这种情况下加入也不起作用。例如,嵌套的 spark Sql 查询是这样的:

foreach(r => ...
   select x,y,z from A
   where k in (select i from B where j=r)

那么如何通过嵌套处理 A 对 B 的每条记录。

谢谢

4

0 回答 0