0

我们有 Hadoop 集群(HDP 2.6.5带有 ambari 的集群,有 25 个数据节点机器)

我们正在使用火花流应用程序(spark 2.1运行Hortonworks 2.6.x

目前的情况是 Spark 流应用程序运行在所有 datanodes 机器上

但是现在我们希望 spark 流应用程序只在第一10 datanodes台机器上运行

因此其他最后一15 datanodes台机器将受到限制,并且 spark 应用程序将仅在第一10 datanodes台机器上运行

这种情况可以通过 ambary 功能或其他方法来完成吗?

例如,我们找到了 - https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.3.2/bk_yarn_resource_mgt/content/configuring_node_labels.html

http://crazyadmins.com/configure-node-labels-on-yarn/

但不确定 Node Labes 是否可以帮助我们

4

1 回答 1

1

@Jessica 是的,您绝对走在正确的道路上。纱线节点标签和纱线队列是 Ambari 管理员控制团队级别访问整个纱线集群部分的方式。您可以从非常基础的非默认队列开始,或者深入了解许多不同团队的许多队列。节点标签将其提升到另一个层次,允许您将队列和团队专门映射到节点。

这是一篇文章,其中包含 spark 使用纱线队列的语法:

如何使用 spark-submit 为 Spark 作业选择队列?

我试图找到这些文档的 2.6 版本,但没能……自合并以来,他们确实混淆了文档……

https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.3.2/bk_yarn_resource_mgt/content/ch_node_labels.html

https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.0/data-operating-system/content/configuring_node_labels.html

您可能必须采取的实际步骤可能是两者的组合。我在 Ambari HDP/HDF 工作时的典型经验。

于 2020-07-01T11:02:50.423 回答