3

我想published dask dataset从队列(如redis)中追加数据。然后其他python程序将能够获取最新数据(例如每秒/分钟一次)并进行一些进一步的操作。

  1. 那可能吗?
  2. 应该使用哪个附加接口?我应该将它加载到pd.DataFrame第一个还是更好地使用一些文本导入器?
  3. 假定的附加速度是多​​少?是否可以在一秒钟内追加 1k/10k 行?
  4. 是否有其他好的建议可以在 dask 集群中交换大量且快速更新的数据集?

感谢您提供任何提示和建议。

4

1 回答 1

1

您在这里有几个选择。

  • 你可以看看streamz项目
  • 你可以看看 Dask 的协调原语

假定的附加速度是多​​少?是否可以在一秒钟内追加 1k/10k 行?

Dask 只是在跟踪远程数据。与 Dask 相比,应用程序的速度与您选择表示该数据的方式(如 python 列表与 pandas 数据帧)有很大关系。Dask 每秒可以处理数千个任务。这些任务中的每一个都可以有一行或数百万行。这取决于你如何构建它。

于 2020-08-08T01:04:09.400 回答