-1

据我所知,这两个平台都支持大数据摄取(流式传输)。

每个平台的优缺点是什么?

4

1 回答 1

3

Arrow Flight 包含 Arrow over gRPC 的序列化格式。它需要两个应用程序、一个客户端和一个服务器。服务器必须正在运行,客户端才能向其发送消息。

Apache Kafka 是一个分布式的、持久的、临时的日志。它需要 4 个组件——Zookeeper、Kafka 代理、生产者应用程序和消费者应用程序。生产者和消费者是解耦的,不需要同时运行。Zookeeper 和代理必须始终可用于健康的系统


使用 Flight,您可以在应用程序之间进行点对点客户端服务器交互。

使用 Kafka,应用程序仅与代理的中间件交互,而不是彼此交互。


理论上,可以为 Kafka 编写 Arrow 序列化程序,但我认为使用 Thrift、Protobuf、Avro 等面向行的格式在网络上比 Arrow、ORC、Parquet 等流行的分析列格式更有意义


对于大型数据集,这两个系统都不是必需的。事实上,我不确定 Arrow 的扩展性是否优于任何其他基于 gRPC 的架构

Kafka的驱动力是减少点对点应用程序交互

于 2020-01-10T14:06:42.840 回答