2

我正在学习 Apache Helix。我遇到了关键字“分区”。
根据此处提到的定义http://helix.apache.org/Concepts.html,每个子任务(主任务的)在 Helix 中被称为一个分区。
当我浏览了这个秘籍 - 分布式锁管理器时,分区只不过是资源的实例。(增加 numOfPartitions,增加锁的数量)。

final int numPartitions = 12;
admin.addResource(clusterName, lockGroupName, numPartitions, "OnlineOffline",
          RebalanceMode.FULL_AUTO.toString());

有人可以用简单的例子解释一下,Apache Helix 中的分区到底是什么?

4

1 回答 1

4

我认为分区本质上是资源的实例是对的。与其他分布式系统的情况一样,分区用于实现并行性。只有一个实例的资源只能在一台机器上运行。分区只是通过对资源进行分区来提供在许多机器之间拆分单个资源所必需的构造。

这是在大部分分布式系统中发现的模式。但是,不同之处在于,虽然分布式数据库基本上将分区明确定义为可以容纳在单个节点上的一些较大数据集的子集,但 Helix 更通用,因为分区没有明确的含义或用例,但许多潜在意义和潜在用例。

我非常熟悉的系统中的这些用例之一是 Apache Kafka 的主题分区。在 Kafka 中,每个主题 - 本质上是一个分布式日志 - 被分成多个分区。虽然主题数据可以分布在集群中的许多节点上,但每个分区都被限制为单个节点上的单个日志。Kafka 通过向新节点添加新分区来提供可扩展性。当消息生成到 Kafka 主题时,它们在内部被散列到某个特定节点上的某个特定分区。当从主题消费消息时,消费者会在分区之间切换 - 从而在节点之间切换,因为它从主题消费。

这种模式通常适用于许多可伸缩性问题,几乎可以在任何 HA 分布式数据库(例如 DynamoDB、Hazelcast)、map/reduce(例如 Hadoop、Spark)和其他数据或任务驱动系统中找到。

关于 Helix的LinkedIn 博客文章实际上也提供了许多有用的示例来说明资源和分区之间的关系。

于 2015-03-31T06:23:16.207 回答