0

我正处于使用 Sparc RDD 设计应用程序的早期阶段(我还不明白)。RDD 将包含大量对象,这些对象又包含对少量(100)个较大(0.5MB)不可变对象的引用。

映射到 RDD 上的操作将调用对象上的成员函数,然后再调用引用上的成员函数。

这原则上可行吗?

4

2 回答 2

2

Spark(不是 sparc)数据通常会使用 java 序列化传递(除非您将其配置为使用 kyro)。我认为这将对大型物体做正确的事情。如果您愿意稍微自定义数据,最好将广播变量用于大型不可变对象。

于 2014-11-04T19:25:00.927 回答
0

我认为这违背了 Sparks 作为分布式函数式编程的精神。

我认为根据映射、过滤和归约的原语重新构建域模型会更好。推理调用这些函数的效果似乎很困难。

另外,如果它们是不可变的,那么对它们调用方法的副作用是什么?

于 2014-11-04T21:42:26.223 回答