0

我们将数据文件放在由 Spark 流应用程序监控的 HDFS 路径中。并触发流应用程序将数据发送到 kafka 主题。我们正在停止流式应用程序?在两者之间并再次启动,以便它应该从它停止的地方开始。但它正在再次处理整个输入数据文件。所以我猜检查点没有被正确使用。我们正在使用 spark 1.4.1 版本我们如何使流应用程序从失败/停止的点开始?提前致谢。

4

1 回答 1

0

在创建上下文时,使用 getOfCreate(checkpoint,..) 加载以前的检查点数据(如果有)。

例如:JavaStreamingContext ssc = JavaStreamingContext.getOrCreate(checkpointDir,..)

检查工作示例程序https://github.com/atulsm/Test_Projects/blob/master/src/spark/StreamingKafkaRecoverableDirectEvent.java

于 2015-12-23T14:27:25.580 回答