1

[描述]

我在 Kubernetes 上运行 Flink 1.11.1,并使用 Prometheus 和 Grafana 设置监控堆栈。

我观察到在 Flink Cluster 上运行 WordCount 示例(通过 UI 提交)不会$(job_name)在 prometheus 上返回。

为了排除故障,我下载了 flink 示例 WordCount 作业并使用Thread.sleep(). 如下面的屏幕截图所示,我运行了这项工作,然后运行了更长的版本。

更短和更长的运行屏幕截图

prometheus 上只有第二次运行(更长的作业)导出$(job_name)字段,如下图所示 Grafana 仪表板屏幕截图 ( label_values(job_name))。这暗示较短的运行作业不会导出给定字段。

Grafana 仪表板上的作业名称字段

我还尝试使用 Flink 建议的设置运行 pushgateway 导出器,结果与上述相同。

[问题]

有没有办法从短期运行的作业中收集 job_name 指标,我的设置是否错误?还是由于普罗米修斯的刮擦间隔而无法实现?谢谢你。

4

0 回答 0