1

我有一个 kafka 主题和一个 Hive Metastore。我想将来自 kafka 主题的传入事件与元存储的记录一起加入。我看到了 Flink 使用目录来查询 Hive Metastore 的可能性。所以我看到了两种处理方法:

  • 使用 DataStream api 使用 kafka 主题并在 processFunction 或类似的东西中以一种或另一种方式查询 Hive 目录
  • 使用 Table-Api,我将从 kafka 主题创建一个表并将其与 Hive 目录连接

我最大的担忧是与存储相关的。在这两种情况下,什么存储在内存中,什么不存储?Hive 目录是否在 Flink 的集群端存储任何内容?在第二种情况下,表是如何处理的?flink 会创建副本吗?

哪种解决方案似乎最好?(也许两者都不是好选择)

4

1 回答 1

0

不同的方法适用于不同的场景,有时取决于你的hive表是静态表还是动态表。

如果你的 Hive 只是一个维度表,你可以试试这一章。

加入连续查询

会自动关联hive最新的分区,适用于维度数据更新慢的场景。

但需要注意的是,Legacy planner 不支持此功能。

于 2021-02-22T17:25:51.860 回答