看起来无法执行嵌套 RDD 操作是 Spark 现在面临的一个限制。
目前,我有两个从不同表加载的数据集(比如 A 和 B),对于数据集 A 中的每条记录,我需要查询另一个数据集 B。结果在提交到数据库之前会进一步转换。
正如我见过的其他一些 SO 问题中所建议的那样,在这种情况下加入也不起作用。例如,嵌套的 spark Sql 查询是这样的:
foreach(r => ...
select x,y,z from A
where k in (select i from B where j=r)
那么如何通过嵌套处理 A 对 B 的每条记录。
谢谢