我想绘制 200 Gb 的NYC 出租车数据集。我设法使用数据着色器绘制/可视化熊猫数据框。但是我没有设法使用 PySpark 数据帧(使用一个 4 节点集群,每个集群有 8Gb RAM)来完成它。不过,我能做的就是使用 . toPandas()方法将 PySpark 数据帧转换为 Pandas 数据帧。但这会将整个数据帧加载到驱动程序节点的 RAM 中(没有足够的 RAM 来容纳整个数据集),因此不会利用 Spark 的分布式功能。
我也知道,仅获取接送经度和纬度将使数据帧达到约 30GB。但这并不能改变问题。
我在 datashader GitHub 上创建了一个问题Datashader 问题已打开
我已将 Dask 视为替代方案,但似乎尚不支持转换 PySpark 数据框 -> Dask 数据框。
谢谢你的建议 !