我们有一个在 Memsql 下运行的 Spark 集群,我们有不同的 Pipelines 运行,ETL 设置如下。
- 提取:- Spark 从 Kafka 集群读取消息(使用 Memsql Kafka-Zookeeper)
- 转换:- 我们为此步骤部署了一个自定义 jar
- 加载:- 来自 Transform 阶段的数据加载到列存储中
我有以下疑问:
如果作业在转换阶段失败,从 Kafka 轮询的消息会发生什么 - Memsql 是否负责再次加载该消息 - 或者数据丢失
如果数据丢失,我该如何解决这个问题,是否需要为此进行任何配置更改?