所以这是我的问题,我有一个大小为 100GB 的大 3dim 数组作为 #zarr 文件(该数组的大小超过两倍)。我曾尝试使用#Dask 中的直方图进行计算,但我收到一条错误消息,指出它无法执行此操作,因为该文件在元组中包含元组。我猜那是 zarr 文件格式而不是其他任何东西?
有什么想法吗?
编辑:是的,更大的计算机实际上无法工作......
我在一台机器上运行一个 dask 客户端,它运行计算但只是卡在某个地方。
我只是在文件中尝试了 dask.map 函数,但是当我将它绘制出来时,我得到了这样的结果:
ValueError: setting an array element with a sequence.
这是脚本的一个版本:
def histo(img):
return da.histogram(img, bins=255, range=[0, 255])
histo_1 = da.map_blocks(histo, fimg)
我实际上会尝试在地图功能之外使用它。我想知道,而不是地图功能,地图块的窗口实际上会导致问题。好吧,我会告诉你是现在还是现在......
编辑 2
所以我尝试按照建议删除地图块功能,这是我的结果:
[in] h, bins =da.histogram(fused_crop, bins=255, range=[0, 255])
[in] bins
[out] array([ 0., 1., 2., 3., 4., 5., 6., 7., 8., 9., 10.,
11., 12., 13., 14., 15., 16., 17., 18., 19., 20., 21.,
22., 23., 24., 25., 26., 27., 28., 29., 30., 31., 32.,
33., 34., 35., 36., 37., 38., 39., 40., 41., 42., 43.,
44., 45., 46., 47., 48., 49., 50., 51., 52., 53., 54.,
55., 56., 57., 58., 59., 60., 61., 62., 63., 64., 65.,
66., 67., 68., 69., 70., 71., 72., 73., 74., 75., 76.,
77., 78., 79., 80., 81., 82., 83., 84., 85., 86., 87.,
88., 89., 90., 91., 92., 93., 94., 95., 96., 97., 98.,
99., 100., 101., 102., 103., 104., 105., 106., 107., 108., 109.,
110., 111., 112., 113., 114., 115., 116., 117., 118., 119., 120.,
121., 122., 123., 124., 125., 126., 127., 128., 129., 130., 131.,
132., 133., 134., 135., 136., 137., 138., 139., 140., 141., 142.,
143., 144., 145., 146., 147., 148., 149., 150., 151., 152., 153.,
154., 155., 156., 157., 158., 159., 160., 161., 162., 163., 164.,
165., 166., 167., 168., 169., 170., 171., 172., 173., 174., 175.,
176., 177., 178., 179., 180., 181., 182., 183., 184., 185., 186.,
187., 188., 189., 190., 191., 192., 193., 194., 195., 196., 197.,
198., 199., 200., 201., 202., 203., 204., 205., 206., 207., 208.,
209., 210., 211., 212., 213., 214., 215., 216., 217., 218., 219.,
220., 221., 222., 223., 224., 225., 226., 227., 228., 229., 230.,
231., 232., 233., 234., 235., 236., 237., 238., 239., 240., 241.,
242., 243., 244., 245., 246., 247., 248., 249., 250., 251., 252.,
253., 254., 255.])
[in] h.compute
[out] <bound method DaskMethodsMixin.compute of dask.array<sum-aggregate, shape=(255,), dtype=int64, chunksize=(255,), chunktype=numpy.ndarray>>
我打算在另一个笔记本上尝试,看看它是否仍然存在。
编辑 3
这是奇怪的事情,但如果我只是声明变量 h,它会作为 dask 数组中的一个小元素出现吗?
编辑
奇怪,如果我调用 xarray.hist 或 da.hist 函数,它们都会倒下。如果我使用 skimage.exposure.histogram 它可以工作,但似乎 zarr 文件在计算直方图之前已解压缩。这有点问题...
2020 年 6 月 7 日更新(针对不大但令人讨厌的中等数据的解决方案)请参阅下面的答案。