问题标签 [dask-distributed]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

950 问题

0 投票

1 回答

636 浏览

dask - 是否有 dask api 来获取 dask 集群中的当前任务数

如果在短时间内提交大量任务，我遇到了一个问题，即 dask 调度程序被杀死（尽管工作人员继续运行）并出现内存错误。

如果可以获取集群上当前的任务数，那么就很容易控制提交到集群的并发任务数。

注意：任务正在从多个客户端提交到同一个调度程序。

dask dask-distributed

2017-09-16T22:01:27.797

0 投票

1 回答

770 浏览

dask - dask-distributed：如何取消使用 fire_and_forget 提交的任务？

使用 fire_and_forget 提交任务图时，是否可以稍后（在新进程/客户端中）取消这些任务（例如通过键名）？这也会取消所有相关的任务，还是这些也像“fire_and_forget”一样？

dask dask-distributed

2017-09-18T11:57:20.450

0 投票

1 回答

1237 浏览

dask - 将大型 dask 数据帧写入单个 S3 CSV 文件

我正在使用 dask.distributed 集群，我想将一个大数据帧保存到一个 CSV 文件到 S3，如果可能的话保持分区的顺序（默认情况下 to_csv() 将数据帧写入多个文件，每个分区一个）。此外，这个文件存储操作也应该作为惰性/延迟任务执行（它应该在集群工作人员上执行）。

我能想到的第一个解决方案是将分区存储在临时 S3 位置，然后在延迟函数中使用 S3 分段上传将这些文件合并/上传在一起。临时存储在这里是一个缺点。

可以使用 dataframe.to_delayed() 来完成吗？上传需要由单个延迟函数执行（S3没有追加操作），同时dataframe可能大于worker的内存，因此该函数不能简单地依赖所有dataframe分区。

PS。CSV 格式是此用例的要求。

dask dask-distributed

2017-09-20T17:26:21.600

0 投票

0 回答

124 浏览

python - 通过使用 dask.distributed 将数据存储到节点上的工作人员之间共享的字典中来减少 i/o

我正在使用dask.distributed调度程序和工作人员来处理集群上的一些大型显微镜图像。我每个节点运行多个工作人员（1 个核心 = 1 个工作人员）。节点中的每个核心共享 200Gb 的 RAM。

问题
我想将写入实例减少到集群的共享 HD。

问题

这个想法是创建一个在节点内共享的字典，用处理过的图像填充它，直到大小达到 RAM 的 80% 左右，然后字典中的每个图像将作为单独的文件保存到 HD。是否可以在节点中的工作人员之间共享字典？
字典中的每个图像都将写入不同的文件。将它们编写为遍历字典或 i/o 调用的速度/和数量将与在处理期间同时编写一张图像相同吗？

我没有当前正在运行的示例，因为我不知道如何在同一节点上的工作人员之间共享变量。

谢谢

python python-3.x parallel-processing dask dask-distributed

2017-09-20T17:54:21.177

0 投票

0 回答

516 浏览