0

我的工作似乎需要很长时间才能运行。我听说这可能是由于一种叫做“偏斜”的东西。

我怎么知道我是否受到此影响?

我知道这通常与连接、窗口和其他会导致洗牌的操作相关联,但我不知道如何识别它。

4

1 回答 1

1
  1. 像这样打开 Spark 详细信息
  2. 确定当前正在运行的阶段或总体上最慢的阶段
  3. 单击此阶段的行以显示阶段详细信息按钮阶段详细信息按钮
  4. 单击阶段详细信息按钮
  5. 查看屏幕顶部的阶段指标。如果您看到较少的任务运行时间明显长于其他任务,这意味着您有偏差偏斜
  6. 如果您单击最慢的任务,您会发现在下面的概述中突出显示的任务,这将指示输入/输出的大小。 倾斜细节

在上面的示例中,此作业 + 阶段中有一个任务的运行时间要长几个数量级,因为它的输入大小比其他任务大几个数量级。

这是倾斜任务/倾斜阶段的定义。

如果您想知道是什么值导致此任务变慢,请查看此处的指南

于 2022-02-16T20:15:42.697 回答