algorithm - apache spark上的不相交集

Question

我试图找到使用 apache spark 在大量数据上搜索不相交集（连接组件/联合查找）的算法。问题是数据量。甚至图形顶点的原始表示也不适合单机上的 ram。Edges 也不适合 ram。

源数据是 hdfs 上图形边缘的文本文件：“id1 \t id2”。

id 以字符串值的形式出现，而不是 int。

我发现的幼稚解决方案是：

但这会导致节点之间传输大量数据（洗牌）

有什么建议吗？

score 1 · Accepted Answer

如果您正在使用图表，我建议您查看这些库中的任何一个

它们都提供了开箱即用的连接组件算法。

图X：

val graph: Graph = ...
val cc = graph.connectedComponents().vertices

图框：

val graph: GraphFrame = ...
val cc = graph.connectedComponents.run()
cc.select("id", "component").orderBy("component").show()

1 回答 1