apache-spark - Memsql Spark-Kafka 转换失败

Question

我们有一个在 Memsql 下运行的 Spark 集群，我们有不同的 Pipelines 运行，ETL 设置如下。

我有以下疑问：

如果作业在转换阶段失败，从 Kafka 轮询的消息会发生什么 - Memsql 是否负责再次加载该消息 - 或者数据丢失

如果数据丢失，我该如何解决这个问题，是否需要为此进行任何配置更改？

score 0 · Accepted Answer

如果您还没有，您应该查看 MemSQL 5.5 Pipelines。 http://blog.memsql.com/pipelines/

这不是基于 spark 的（并且转换的完成方式有些不同，因此您可能必须重写代码），但我们现在有原生 kafka 流。

我们在原生版本中只获得一次的方式很简单；将偏移量存储在与实际数据相同的原子事务中。如果某些事情失败并且事务未提交，则不会提交偏移量，因此我们自然会自动重试该分区偏移量范围。

score 0 · Accepted Answer

就目前而言，至少有一次语义在 MemSQL Ops 中不可用。它在路线图上，并将出现在 Ops 的未来版本之一中。

2 回答 2