0

这只是天上掉馅饼的头脑风暴之类的东西,不期待具体的答案,但希望得到一些指示。

我正在想象一个工作流,我们触发一个保存点,并检查保存点文件以查看特定运算符的状态——也许是作为调试助手,或者作为实现我们可能对可查询的操作的更简单(?)方式状态...

假设这可行,那么在重新启动相同或修改版本的作业时修改/修复要使用的保存点中的数据的可能性如何?

或者也许从头开始或多或少地生成一个保存点来定义新工作的初始状态?代替将数据输入回填状态?

此类设施是否已经存在?我的猜测是否定的,基于我目前所能找到的。我将如何去完成这样的事情?到目前为止,我的高级想法类似于:

  savepoint -->
    SavepointV2Serializer.deserialize -->
      write to json -->
        manually inspect / edit the files, or
        other tooling that works with json to inspect / modify
    SavepointV2Serializer.serialize -->
  new savepoint

我实际上还没有编写任何代码,所以我真的不知道这有多可行。想法?

4

1 回答 1

1

您想使用状态处理器 API,它即将作为 Flink 1.9 的一部分提供。这将使使用 Flink 的批处理 DataSet api 读取、写入和修改保存点成为可能。

于 2019-07-10T06:47:51.913 回答