我有一个 kafka 主题和一个 Hive Metastore。我想将来自 kafka 主题的传入事件与元存储的记录一起加入。我看到了 Flink 使用目录来查询 Hive Metastore 的可能性。所以我看到了两种处理方法:
- 使用 DataStream api 使用 kafka 主题并在 processFunction 或类似的东西中以一种或另一种方式查询 Hive 目录
- 使用 Table-Api,我将从 kafka 主题创建一个表并将其与 Hive 目录连接
我最大的担忧是与存储相关的。在这两种情况下,什么存储在内存中,什么不存储?Hive 目录是否在 Flink 的集群端存储任何内容?在第二种情况下,表是如何处理的?flink 会创建副本吗?
哪种解决方案似乎最好?(也许两者都不是好选择)