我想published dask dataset
从队列(如redis)中追加数据。然后其他python程序将能够获取最新数据(例如每秒/分钟一次)并进行一些进一步的操作。
- 那可能吗?
- 应该使用哪个附加接口?我应该将它加载到
pd.DataFrame
第一个还是更好地使用一些文本导入器? - 假定的附加速度是多少?是否可以在一秒钟内追加 1k/10k 行?
- 是否有其他好的建议可以在 dask 集群中交换大量且快速更新的数据集?
感谢您提供任何提示和建议。
我想published dask dataset
从队列(如redis)中追加数据。然后其他python程序将能够获取最新数据(例如每秒/分钟一次)并进行一些进一步的操作。
pd.DataFrame
第一个还是更好地使用一些文本导入器?感谢您提供任何提示和建议。
您在这里有几个选择。
假定的附加速度是多少?是否可以在一秒钟内追加 1k/10k 行?
Dask 只是在跟踪远程数据。与 Dask 相比,应用程序的速度与您选择表示该数据的方式(如 python 列表与 pandas 数据帧)有很大关系。Dask 每秒可以处理数千个任务。这些任务中的每一个都可以有一行或数百万行。这取决于你如何构建它。