apache-spark - 在 pandas_udf spark 中返回一个 Pandas 系列

Question

在 Apache Spark 上，我有一个 pandas_udf 函数，它应该返回一个 pd.Series 如何存档？

我试过了：

@pandas_udf(ArrayType(LongType()), PandasUDFType.SCALAR_ITER) # Only works with spark 3.0
def udf(iterator):
  ...
  return pd.Series([1,2,3,4,5])

这给出了例外：

pyarrow.lib.ArrowNotImplementedError: NumPyConverter doesn't implement <list<item: int64>> conversion.

score 1 · Accepted Answer

1

好的，这是我这边的一个错误。来自 pandas udf 的模式类型

于 2020-03-11T19:53:13.537 回答

1 回答 1