5

我有几个与 Spark Streaming 相关的基本问题

[请让我知道这些问题是否已在其他帖子中得到回答 - 我找不到任何]:

(i) 在 Spark Streaming 中,RDD 中的分区数是否默认等于 worker 数?

(ii) 在 Spark-Kafka 集成的直接方法中,创建的 RDD 分区数等于 Kafka 分区数。假设每个 RDD 分区在每个批次中都i映射到同一个工作节点是否正确?即,分区到工作节点的映射是否仅基于分区的索引?例如,分区 2 是否可以在一批中分配给工人 1,而在另一批中分配给工人 3?jDStream

提前致谢

4

1 回答 1

6

i) 默认并行度是内核数(或 mesos 为 8),但分区数取决于输入流实现

ii) 不,分区索引到工作节点的映射不是确定性的。如果您在与 spark 执行程序相同的节点上运行 kafka,则运行任务的首选位置将在该分区的 kafka 领导节点上。但即便如此,一个任务也可能被安排在另一个节点上。

于 2015-10-05T19:55:01.433 回答