apache-spark - 检查点在火花流中不起作用

Question

我们将数据文件放在由 Spark 流应用程序监控的 HDFS 路径中。并触发流应用程序将数据发送到 kafka 主题。我们正在停止流式应用程序？在两者之间并再次启动，以便它应该从它停止的地方开始。但它正在再次处理整个输入数据文件。所以我猜检查点没有被正确使用。我们正在使用 spark 1.4.1 版本我们如何使流应用程序从失败/停止的点开始？提前致谢。

score 0 · Accepted Answer

在创建上下文时，使用 getOfCreate(checkpoint,..) 加载以前的检查点数据（如果有）。

例如：JavaStreamingContext ssc = JavaStreamingContext.getOrCreate(checkpointDir,..)

检查工作示例程序https://github.com/atulsm/Test_Projects/blob/master/src/spark/StreamingKafkaRecoverableDirectEvent.java

apache-spark - 检查点在火花流中不起作用

1 回答 1

Related

Reference