我有一个大约 120k 行的 modin 数据框。我想合并它的一些列。Modin df iterrows 需要很多时间,所以我尝试使用 numpy.where。Numpy.where 在等效的 pandas df 上可以在 5-10 分钟内完成,但 modin df 上的相同操作需要约 30 分钟。有什么替代方法可以加快 modin 数据帧的这项任务?
[cols_to_be_coalesced] --> 此列表包含要合并的列的列表。它包含 10-15 列。
代码:
for COL in [cols_to_be_coalesced]:
df['COL'] = np.where(df['COL']!='', df['COL'], df['COL_X'])
如果 df 是 pandas 数据帧,它将在 ~10 分钟内执行,但如果它是一个 modin 数据帧,则需要 ~30 分钟。那么,对于 modin 数据帧,numpy.where 是否有任何等效代码来加速此操作?