apache-spark - 如何使用 spark 配置 Yarn 集群？

翻译自：https://stackoverflow.com/questions/52361121 2018-09-17T05:14:23.167

216 次

我有 2 台机器，每台机器有 32gb ram 和 8core。那么如何使用 spark 配置纱线，以及我必须使用哪些属性来根据我们的数据集调整资源。我有 8gb 数据集，那么任何人都可以建议在并行作业运行中配置带有 spark 的纱线吗？

这是纱线配置：我正在使用 hadoop 2.7.3、spark 2.2.0 和 ubuntu 16

`yarn scheduler minimum-allocation-mb--2048 
yarn scheduler maximum-allocation-mb--5120
yarn nodemanager resource.memory-mb--30720 
yarn scheduler minimum-allocation-vcores--1 
yarn scheduler maximum-allocation-vcores--6 
yarn nodemanager resource.cpu-vcores--6`

这是火花配置：

spark master    master:7077 
spark yarn am memory 4g 
spark yarn am cores 4 
spark yarn am memoryOverhead    412m 
spark executor instances    3 
spark executor cores    4 
spark executor memory   4g 
spark yarn executor memoryOverhead  412m

但我的问题是每台机器有 32gb ram 和 8core。无论这个配置是否正确，我可以运行多少个应用程序？bcoz 只有两个应用程序并行运行。

apache-spark - 如何使用 spark 配置 Yarn 集群？

0 回答 0

Related

Reference